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序 


自从 60 多 年 前 关系 型 数据 库 出 现 起 ， 它 就 被 广泛 使 用 。 至 今 ,几乎 所 有 IT 系统 都 离 不 开关 


系 型 数据 库 。 在 MySQL 出 现 前 ， 关 系 型 数据 库 行 业 几 乎 被 Oracle, IBM DB2 和 Microsoft SQL 
Server 几 个 商业 巨头 垄断 了 。 商 业 数 据 库 的 封闭 性 和 高 昂 的 价格 ,对 IT 行业 在 深度 和 广度 上 的 


使 用 


、 提 升 数据 库 系 统 以 及 时 适应 各 种 新 需求 ( 尤其 是 互联 网 等 行业 带 来 的 新 需求 ) 造成 了 很 大 


的 阻碍 。20 世纪 末 开 源 数据 库 MySQL 的 出 现 和 崛起 ， 为 整个 数据 库 行 业 带 来 了 巨大 的 希望 。 可 
惜 随 着 MySQL 被 Oracle 公司 收购 ， 存 在 Oracle 公司 将 MySQL 闭 源 的 巨大 潜在 风险 。 为 了 避免 
这 种 风险 ， 为 行业 提供 一 个 永久 开源 免费 的 关系 型 数据 库 系 统 ，MariaDB 被 创造 了 出 来 。 虽 然 
MariaDB 最 初 只 是 MySQL 的 一 个 分 支 ， 但 近年 来 随 着 社区 的 壮大 和 普及 度 的 迅猛 上 升 ， 它 在 很 
多 方面 已 经 超过 了 MySQL， 例 如 性 能 、 复 制 功能 和 存储 引擎 等 ， 并 且 大 有 完全 蔡 代 MySQL 的 


势头 


o 


ASTRA TH HG S MariaDB 的 设计 理念 , 剖析 了 MariaDB 的 几 个 关键 而 有 趣 的 子 系统 。 
本 书 的 作者 是 我 的 同事 ， 我 目睹 了 他 们 将 日 常 工作 实践 中 总 结 和 提炼 出 MariaDB 的 心得 转化 成 
书 的 过 程 。 这 是 一 本 理论 结合 实践 的 书 ， 读 者 不 但 可 以 学 习 到 MariaDB 的 理论 ， 还 可 以 参照 书 
中 的 实例 一 步 步 地 自行 调试 实践 。 我 相信 本 书 会 对 有 志学 习 MariaDB 的 读者 有 所 帮助 。 


作为 一 个 曾经 在 数据 库 行业 耕耘 8 年 的 老兵 〈 主要 从 事 SQL Server 存储 引擎 研发 )， 我 也 深 


深 地 


期 待 国人 不 但 能 深度 掌握 MariaDB 的 使 用 技术 , 还 能 在 MariaDB 社区 作出 越 来 越 多 的 贡献 ， 


为 积 


累 和 提升 数据 库 方 面 的 核心 能 力 而 努力 。 期 待 这 本 书 能 启发 和 引导 更 多 的 同行 来 参与 


MariaDB 社区 的 工作 并 发 挥 出 价值 。 


Dll} 


前 


目标 读者 


这 是 一 本 讲解 数据 库 原理 及 其 具体 实现 的 书 , 本 书 主要 面向 想 要 了 解 MariaDB F MySQL 的 
工作 原理 及 其 具体 实现 的 读者 , 以 及 想 要 阅读 MariaDB 和 MySQL 源 代码 却 苦 于 不 知道 从 何 处 开 
始 的 读者 。 


本 书 的 整体 思路 是 由 简 至 繁 , 从 基本 原理 到 具体 实现 细节 , 书 中 由 浅 入 深 地 剖析 了 MariaDB 
以 及 MySQL. 


如 果 你 想 要 阅读 本 书 , 首先 必须 具有 一 定 的 数据 库 基 础 知识 ; 其 次 ,你 应 该 具备 一 定 的 C/C++ 
语言 知识 ， 因 为 MariaDB/MySQL 主要 是 用 C/C++ 编写 的 ， 在 分 析 具 体 实现 的 时 候 ， 我 们 会 给 出 
大 量 的 源 代码 。 
章节 安排 

本 书 的 章节 安排 如 下 。 


第 1 章 描述 了 MariaDB 相关 的 一 些 基 础 内 容 ， 包 括 MariaDB 的 历史 、MariaDB 所 做 的 一 些 
优化 、MariaDB 与 MySQL 的 兼容 性 以 及 如 何 安装 使 用 MariaDB ， 等 等 。 


第 2 章 讲解 了 MariaDB 添加 的 新 特性 以 及 对 MySQL 原 有 功能 所 做 的 扩展 。 


第 3 章 首先 讲解 了 MariaDB 源 代 码 的 组 织 结构 以 及 MariaDB 对 函数 和 基本 类 型 的 封装 ， 最 
后 从 实战 的 角度 讲解 了 如 何 调试 MariaDB。 读 者 可 以 通过 边 调 试 边 阅读 MariaDB 代码 的 方式 来 
学 习 MariaDB, 


第 4 章 对 MariaDB/MySQL 中 使 用 比较 多 的 一 些 底层 数据 结构 进行 了 介绍 ， 为 我 们 后 面 更 深 
入 地 讲解 MariaDB/MySQL 各 种 功能 的 实现 竟 定 了 基础 。 


第 5 章 详 细 分 析 了 MariaDB 的 线程 池 技 术 ， 包 括 使 用 以 及 具体 的 实现 机 条 
第 6 章 从 实际 的 应 用 场景 出 发 ， 详 细 阐 述 了 binlog 的 相关 内 容 。 


o 


一 


第 7 章 重 点 讲解 了 MariaDB 的 binlog group commit 技术 , 该 技术 在 具有 高 并 发 事务 的 场景 
能 够 极 大 地 提高 MariaDB 单位 时 间 内 的 事务 提交 数 。 


第 8 章 用 很 大 的 篇 幅 介 绍 了 MariaDB/MySQL 复制 相关 的 内 容 ， 主 要 包括 复制 的 工作 原理 、 
复制 的 实现 、 半 同步 复制 、MariaDB 多 源 复 制 、GTID ， 等 等 。 


第 9 章 讲解 了 数据 库 技术 中 用 到 的 一 些 数据 结构 和 算法 ， 包 括 B+ 树 数据 结构 、0RDER BY if 
句 所 使 用 的 算法 、JOIN 相关 的 算法 ， 等 等 。 


第 10 章 介绍 了 分 布 式 数据 库 相 关 的 一 些 内 容 , 包括 基本 概念 、 特 点 、 一 些 技术 难点 ， 等 等 。 
最 后 ， 我 们 分 析 了 京东 分 布 式 数据 库 系 统 的 架构 。 


附录 A 讲解 了 资源 控制 方面 的 一 些 内 容 ， 主 要 是 关于 如 何 利用 Linux 系统 的 CGroup 机 制 来 
控制 系统 资源 的 使 用 情况 ， 并 且 详 细 分 析 了 CGroup 各 个 子 系统 的 具体 实现 。 


我 们 建议 读 考 按 顺 序 来 阅读 本 书 ， 但 你 也 可 以 挑选 自己 感 兴趣 的 章节 进行 阅读 。 
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2008 年 MySQL 首 先 被 Sun 公 司 收购 ， 之 后 Sun 公 司 又 被 Oracle 公 司 收购 ，MySQL 也 被 包含 在 
这 次 收购 中 。 在 这 两 次 收购 过 程 中 ， 出 现 了 多 个 MySQL 的 开源 分 支 ， 其 中 比较 主流 的 分 文 有 
Percona Server, 、MariaDB 和 Drizzle 等 。 它 们 都 有 活跃 的 用 户 社 区 和 一 定 程度 上 的 商业 支持 ， 均 由 
独立 的 服务 供应 商 支持 。 


MariaDB 是 众多 MySQL 开 源 分 支 中 非常 出 色 的 一 个 。 作 为 MySQL 的 深度 替代 者 ，MariaDB 
很 好 地 兼容 了 MySQL。 同 时 ，MariaDB 在 MySQL 的 基础 上 做 了 很 多 扩展 ， 包 含 了 许多 新 特性 ， 
例如 支持 binlog group commit 技 术 ， 支 持 虚 拟 列 和 动态 列 ， 支 持 多 源 复制 ， 等 等 。 在 性 能 方面 ， 
MariaDB 也 做 了 很 多 优化 ， 例 如 更 快 的 子 查 询 、 更 快 的 字符 集 转换 、 为 MyISAM 存 储 引 擎 添加 了 
分 段 键 值 缓 存 ， 让 MyISAM 存 储 引 警 在 现代 硬件 体系 上 运行 得 更 快 ， 等 等 。 本 章 中 ,我 们 将 介绍 
MariaDB 的 一 些 基 本 信息 。 


本 音 的 内 容 主 要 包括 : 


口 MariaDB 的 历史 

口 MariaDB 所 做 的 事情 
口 MariaDB 的 版 本 与 兼容 性 
O 编译 和 安装 MariaDB 

口 联系 社区 


1.1 MariaDB 的 历史 


在 Sun 收 购 MySQL 之 后 , MySQL 的 创始 人 Monty Widenius 离 开 了 Sun 公 司 , 成 立 了 Monty 程 序 
公司 ,创立 了 MariaDB， 其 主要 目的 是 建立 一 个 开放 的 开发 环境 ， 以 鼓励 外 部 人 员 参 与 。 目 前 ， 
MariaDB 主 要 由 社区 开发 和 维护 。 


MariaDB 对 社区 、 开 发 者 及 用 户 的 主要 意义 可 以 概括 为 以 下 几 个 方面 : 
口 是 一 个 永久 开源 的 MySQL 分 文 ; 
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口 高 质量 和 持续 性 的 开发 测试 及 维护 工作 ; 

O 来 自 社区 开发 者 提交 的 补丁 会 被 确认 、 接 收 和 使 用 ; 

O 维护 MariaDB 整 个 社区 开发 者 的 话语 权 ， 不 会 被 某 一 个 人 或 者 组 织 完全 控制 ; 
口 持续 保持 和 MySQL 的 兼容 性 。 


1.2 MariaDB 所 做 的 事情 
MariaDB 在 MySQL 的 基础 上 做 了 许多 工作 ， 主 要 包括 性 能 方面 的 优化 以 及 许多 新 特性 的 支持 。 


1.2.1 更 丰富 的 存储 引擎 


除了 包含 标准 的 MyISAM、BLACKHOLE、CSV、MEMORY 、ARCHIVE 、MERGE 等 存储 
引擎 外 ，MariaDB 的 源 代 码 和 二 进 制 包 中 还 包含 以 下 额外 的 存储 引擎 : 


口 Aria 

口 XtraDB 

口 PBXT 

口 FederatedX 
口 OQGraph 
QO) SphinxSE 
D IBMDB2I 
口 TokuDB 

0 Cassandra 
QO CONNECT 
DQ Sequence 
a Spider 


1.2.2 ”性 能 的 提升 


MariaDB 在 很 多 地 方 都 做 了 优化 ， 其 性 能 得 到 了 不 同 程度 的 提升 。MariaDB 所 做 的 优化 主要 
包括 以 下 几 个 方面 。 


O 对 子 查询 进行 了 优化 ， 使 子 查 询 的 速度 得 到 了 提升 。 

口 更 快 、 更 安全 的 复制 ， 引 入 了 binlog group commit 技 术 ， 使 MariaDB 在 某 些 场景 下 事务 的 
提交 速度 得 到 成 倍 提升 。 

口 提升 了 在 Windows 平 台 下 InnoDB 异 步 I0 子 系统 的 性 能 。 

O 提高 了 MEMORY 存 储 引 擎 索引 的 插入 速度 。 
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口 为 MYISAM 存 储 引擎 增加 了 分 段 键 值 缓存 , 提升 了 MyISAM 存 储 引 擎 在 现代 硬件 上 的 运行 
速度 。 

口 表 的 校 验 更 加 快速 。 

口 提升 了 字符 集 的 转换 效率 。 

口 引入 了 线程 池 技 术 ，, 解决 了 MySQL 的 最 大 连接 数 限 制 问 题 ， 降 低 了 大 量 连接 情况 下 的 系 
统 开销 。 

口 使 用 Aria 存 储 引 擎 的 表 作为 临时 表 ， 提 升 了 某 些 复杂 查询 的 效率 。 


1.2.3 ”扩展 和 新 特性 


MariaDB 是 由 社区 开发 和 维护 的 , 主要 由 用 户 的 需求 所 驱动 , 如 果 某 个 功能 对 用 户 是 有 用 的 ， 
MariaDB 就 会 考虑 将 其 加 入 进来 ， 所 以 MariaDB 包 含 了 许多 扩展 和 新 特性 。 目 前 ，MariaDB 比 较 
显著 的 扩展 和 特性 主要 包括 以 下 几 个 。 


口 时 间 精 度 达到 微 秒 级 别 。 

口 虚拟 列 的 支持 。 

口 动态 列 的 支持 。 

口 用 户 统计 的 扩展 。 

口 KILL 命 令 的 扩展 ， 允 许 杀 死 某 个 用 户 的 所 有 查询 。 
口 CREATE TABLE 命 令 的 扩展 。 

O INFORMATION SCHEMA.PLUGINS 表 的 增强 。 
口 引入 了 binlog group commit 技 术 。 

口 命令 的 执行 进度 报告 。 

口 更 快 的 连接 和 子 查询 。 

O GIS 功 能 的 支持 。 

口 支持 多 源 复制 ， 允 许 一 个 从 库 同时 复制 多 个 主 库 的 数据 。 
O GTID 的 支持 ,简化 了 复制 的 运行 和 维护 工作 。 

口 支持 PCRE 正 则 表达 式 。 


1.2.4 更 好 的 测试 

MariaDB 在 测试 方面 也 做 了 很 多 工作 ， 主 要 表现 在 以 下 几 个 方面 。 
口 更 多 的 测试 。 
口 bug 修 复 的 测试 。 
口 配置 不 同 的 编译 选项 ， 获 得 更 好 的 测试 效果 。 
口 移 除 无 效 的 测试 。 
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1.2.5 ”尽量 消除 错误 和 警告 


为 了 避免 潜在 的 问题 ， 在 编译 程序 的 时 候 ， 不 要 忽略 编译 器 的 警告 信息 
做 得 非常 好 ， 具体 如 下 所 示 。 


，MariaDB 在 这 方面 
口 修复 尽 可 能 多 的 错误 ， 避 免 引 入 新 的 错误 。 
O 编译 需 的 警告 是 不 好 的 ， 消 除 尽 可 能 多 的 警告 。 


1.3 MariaDB 的 版 本 与 兼容 性 


出 于 实用 的 目的 ，MariaDB 是 相同 版 本 MySQL 的 二 进 制 深度 蔡 代 者 ， 例 如 MariaDB 5.1、 
MariaDB 5.2 和 MariaDB 5.3 对 应 于 MySQL 5.1，MariaDB 5.5 对 应 于 MySQL 5.5，MariaDB 10.0 对 
应 于 MySQL 5.6。 


MariaDB 与 MySQL 的 兼容 性 主要 


本 现在 以 下 几 个 方面 。 
口 数据 文件 和 表 定 义 文件 是 二 进 


wla 


容 的 。 


口 所 有 的 客户 端 API 和 协议 都 是 站 
口 所 有 的 文件 名 、 二 进 和 


KASEY o 


SCAR. BA 、 端 口号 等 都 是 相同 的 。 
口 所 有 的 连接 器 , 包括 PHP、Perl、Python、Java、.NET、Ruby、MySQL 的 连接 器 在 MariaDB 
上 都 是 可 以 正常 使 用 的 ， 不 需要 进行 任何 改动 。 


口 可 以 使 用 MySQL 的 客户 端 连 接 到 MariaDB 上 。 


也 就 是 说 , 在 大 多 数 情况 下 ,， 钊 载 已 有 的 MySQL 并 安装 对 应 版 本 的 MariaDB ， 就 可 以 工作 得 
很 好 , 不 需要 转换 任何 的 数据 文件 , 前提 是 使 用 对 应 版 本 的 MariaDB ,例如 使 用 MariaDB 5.1 蔡 换 
新 了 MariaDB 的 新 字段 。 


MySQL5.1。 同 时 ,你 必须 还 要 运行 mysql_upgrade 来 完成 升级 , 确保 你 的 MySQL 权 限 和 事件 表 更 


MariaDB 每 个 月 都 会 与 MYSQL 代码 库 合 并 来 确保 虱 
级 到 MySQL 5.1 更 容易 。 


MariaDB 在 脚本 升级 方面 也 做 了 大 量 的 工作 ， 从 MySQL 5.0 升 级 到 MariaDB 5.1 比 从 MySQL 5.0 升 


RAPE, ， 并 添加 Oracle 修 正 的 bug 和 特 怡 
1.3.1 


Lo 


MariaDB 5.1 和 MySQL 5.1 的 不 兼容 性 
EAS FEZN TAA 


为 了 使 MariaDB 提 供 更 多 、 更 有 用 的 信息 ,在 极 少 的 一 些 情况 下 会 导致 MariaDB 和 MYSQL 不 
日 户 角度 来 看 MariaDB 5.1 与 MySQL 5.1 的 所 有 不 兼容 性 。 
口 安装 包 的 名 称 以 MariaDB 开 头 ， 而 不 是 以 MySQL 开 头 。 


O 在 my.cnf 配 置 文件 中 ， 可 以 使 用 [mariadb] 来 奉 代 [mysqld] 。 
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O 在 MariaDB 中 加 载 其 他 二 进 制 的 存储 引擎 时 ,如果 该 存储 引擎 不 是 使 用 对 应 的 MariaDB 版 
本 编译 的 ， 那 么 该 二 进 制 的 存储 引擎 将 不 可 用 。 这 是 因为 服务 器 的 内 部 数据 结构 THD 在 
MariaDB 和 MySQL 中 是 不 同 的 ， 而 且 在 MariaDB/MySQEL 的 不 同 版 本 中 也 是 不 同 的 。 通 常 
这 不 是 问题 ， 因 为 对 于 大 多 数 人 来 说 , 不 需要 加 载 二 进 制 的 存储 引擎 ，MariaDB 本 身 就 拥 
有 比 MySQL 更 多 的 存储 引擎 。 

O 表 的 校 验 可 能 产生 不 同 的 结果 ， 因 为 MariaDB 在 校 验 的 时 候 并 不 忽略 NULL 列 (新式 校 验 
方法 )， 而 MySQL 5.1 在 校 验 的 时 候 会 忽略 NULL 列 ( 旧式 校 验方 法 )。 在 MariaDB 中 ， 开 
启 mysqld --old 选 项 ， 你 将 会 得 到 旧式 的 校 验 结果 。 但 需要 注意 的 是 ，MyISAM 存 储 引 擎 
和 Aria 存 储 引 擎 内 部 使 用 的 是 新 式 校 验 方式 ， 所 以 当 你 使 用 了 --old 选 项 时 ，CHECKSUM 命 
令 将 会 执行 得 很 慢 , 因为 执行 该 命令 的 时 候 需 要 一 行 一 行 地 扫描 表 的 数据 , 然后 按照 “ 旧 
式 ” 的 方法 生成 校 验 结果 。 

口 MariaDB 的 慢 查 询 日 志 包 含 了 更 多 关于 查询 的 信息 , 如 果 你 使 用 已 有 的 慢 查询 日 志 解 析 脚 

本 对 MariaDB 的 慢 查 询 日 志 进 行 解析 可 能 会 出 现 问题 。 

口 MariaDB 占 用 的 内 存 通常 会 比 MySQL 多 一 点 ， 因 为 在 默认 情况 下 ，MariaDB 会 启用 Aria 存 
储 引擎 来 操作 内 部 临时 表 。 如 果 想 让 MariaDB 占 用 较 少 的 内 存 ( 这 将 会 牺牲 一 些 性 能 )， 
你 可 以 设置 aria_pagecache_buffer_ size 的 值 为 IMB ( 默认 值 为 128MB )。 

口 如 果 你 正在 使 用 MariaDB 的 新 选项 、 新 特性 或 者 新 存储 引擎 ， 那 么 就 不 能 在 MySQL 和 
MariaDB 之 间 进 行 切换 。 


1.3.2 MariaDB 5.2 和 MySQL 5.1 的 不 兼容 性 


除了 上 一 节 中 列 出 的 MariaDB 5.1 和 MySQL 5.1 的 不 兼容 性 之 外 ，MariaDB 5.2 还 有 一 些 地 方 
与 MySQL 5.1 不 兼容 。 例 如 新 增 SQL_MODE 的 取 值 IGNORE_BAD_TABLE_0PTIONS， 该 选项 会 忽略 由 于 存 
储 引 擎 不 支持 某 些 选项 而 导致 的 错误 。 


1.3.3 MariaDB 5.3 和 MySQL 5.1, MariaDB 5.2 的 不 兼容 性 
MariaDB 5.3 不 仅 与 MySQL 5.1 在 某 些 地 方 不 兼容 ， 同 时 与 MariaDB 5.2 也 有 一 些 地 方 不 兼容 。 


口 由 于 转换 而 导致 的 错误 ，MariaDB 提 供 了 更 加 详细 的 说 明 。 

口 MariaDB 的 错误 编号 已 经 从 1900 开 始 ， 目 的 是 避免 与 MySQL 的 错误 编号 产生 冲突 。 

口 MariaDB 从 5.3 开 始 ， 内 部 使 用 的 时 间 精 度 为 微 秒 ， 而 在 MySQL 内 部 以 及 5.3 以 前 版 本 的 

MariaDB 中 ， 时 间 精 度 为 毫秒 。 

O 在 MariaDB 中 返回 的 是 包含 6 位 小 数 的 时 间 戳 ， 但 是 MySQL 返 回 的 时 间 戳 是 不 带 小 数 的 。 
当 你 使 用 UNIX_TIMESTAMP 作为 分 区 函数 时 ,会 导致 一 些 问题 。 修 复 这 些 问 题 可 以 使 用 
FLOOR(UNIX_TIMESTAMP() ) 函数 代替 或 者 是 将 日 期 字符 串 改 成 日 期 数字 , 如 20080101000000。 

口 MariaDB 对 于 类 型 date、datetime 和 timestamp 值 的 检查 更 加 严格 , 如 UNIX_TIMESTAMP("x") 

返回 的 是 NULL， 而 不 是 0。 
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口 SHOW PROCESSLIST 拥有 一 个 额外 的 进度 列 ， 显 示 了 命令 的 执行 进度 。 通 过 启动 nysqld 时 携 

带 --o1d-mode=NO_PROGRESS_INF0 或 者 --o1d 选 项 来 禁用 该 功能 。 

口 INFORMATION_SCHEMA.PROCESSLIST 表 新 增 了 3 个 字段 用 于 扩展 命令 执行 进度 报告 功能 ， 即 

STAGE 、MAX_STAGE 和 PROGRESS。 

口 若 长 注释 以 /*M! 或 者 /*MI 挫 ## 开 头 ， 注 释 内 的 命令 将 会 被 执行 。 

口 MariaDB 在 启动 nysqld 时 ， 如 果 使 用 了 max_user_connections=0( 即 不 对 连接 数 加 以 限制 ) 
参数 ， 那 么 在 mysqld 运 行 的 时 候 不 能 改变 全 局 变量 max_user_connections 的 值 。 这 是 因为 
启动 nysqld 时 带 上 max_user_connections=0，MariaDB 内 部 不 会 分 配 计数 结构 。 如 果 之 后 
改变 了 这 个 变量 ,将 会 导致 错误 的 计数 。 

口 可 以 将 max_user_connections 设 置 为 -1 阻止 用 户 连 接 服务 器 , 但 拥有 SUPER 权 限 的 用 户 还 

是 可 以 连接 上 的 。 

O TIGNORE 指 令 不 会 忽略 所 有 的 错误 ， 仅 仅 会 忽略 安全 的 错误 。 


1.3.4 MariaDB 5.5 和 MariaDB 5.3 的 不 兼容 性 


XtraDB 存 储 引擎 之 前 版 本 中 的 某 些 选项 在 XtraDB 5.5 中 将 不 再 支持 ,具体 包括 以 下 几 个 方面 。 


innodb_adaptive_checkpoint: 使 用 innodb_adaptive_flushing_method 替 代 。 
innodb_auto_lru_dump: 使 用 innodb_buffer pool restore at_startup 替 代 。 
innodb_blocking_lru_restore: 使 用 innodb_blocking_buffer pool restore 替 代 。 


m) 

m) 

m) 

D innodb_enable_unsafe_group_commit 

D innodb_expand_import: 使 用 innodb_import_table from xtrabackup 替 代 。 
口 innodb_extra_rsegments: 使 用 innodb_ rollback_segment 替 代 。 
m) 
m) 
m) 
m) 
m) 


innodb_extra_undoslots 
innodb_fast_recovery 
innodb_flush_log_at_trx_commit_session 


innodb_overwrite_relay_log_info 


innodb_pass_corrupt_table: 使 用 innodb_corrupt_table_action 替 代 。 


D innodb use purge thread 


口 xtradb_enhancements 
XtraDB 5.5 的 某 些 选项 的 默认 值 发 生 了 改变 ， 主 要 有 以 下 几 项 。 


Q innodb_change_buffering 的 旧 默 认 值 为 inserts， 新 默认 值 为 a11。 
D innodb flush_neighbor_ pages 的 旧 默 认 值 为 1， 新 默认 值 为 area。 


XtraDB 5.5 添 加 了 一 些 新 的 选项 ， 具 体 如 下 : 


Q) innodb adaptive flushing method 
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innodb_adaptive_hash_index_partitions 


innodb blocking buffer pool restore 
innodb_buffer_pool_instances 

innodb buffer pool restore at_startup 
innodb_change buffering debug 
innodb corrupt table action 

innodb flush checkpoint debug 
innodb force load corrupted 

innodb import table from xtrabackup 
innodb large prefix 
innodb_ purge batch size 
innodb_purge_ threads 

innodb recovery update relay log 
innodb_rollback_segments 
innodb_ sys columns 
innodb sys fields 
innodb sys foreign 
innodb sys foreign cols 
innodb_sys_tablestats 


innodb use global flush log at trx commit 


DoOoOOOoOOOOOOOOOOOOoOOOODO DO 


innodb_use native aio 


1.3.5 MariaDB 5.5 与 MariaDB 5.3 和 MySQL 5.5 的 不 兼容 性 


除了 1.3.4 节 介绍 的 XtraDB 在 MariaDB 5.5 和 MariaDB 5$.3 中 的 不 兼容 性 ，MariaDB 5.5459 
MariaDB 5.3 和 MySQL 5.5 还 具有 以 下 几 个 不 兼容 的 地 方 。 


口 INSERT IGNORE 会 对 重复 键 值 给 出 警告 信息 。 通 过 设置 0LD_MODE=NO_DUP_KEY_NARNINGS __ 
WITH_IGNORE， 可 以 关闭 INSERT IGNORE 对 重复 键 值 的 警告 。 

口 X'HHHH ' 在 标准 SQL 语法 中 是 用 来 表示 二 进 制 字符 串 的 , 但 在 MariaDB 5.5.31 之 前 , 它 将 被 
错误 地 理解 为 数字 ， 和 0xHHHH 的 作用 一 致 。 而 在 MariaDB 5.5.31 中 ， 该 问题 已 被 修复 了 ， 
X"HHHH' 只 能 表示 字符 串 。 


1.3.6 MariaDB 10.0 和 MySQL 5.6 的 不 兼容 性 
作为 MariaDB 目 前 最 新 的 版 本 ，MariaDB 10.0 与 MySQL 5.6 的 不 兼容 性 包括 以 下 几 个 方面 。 
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O 如 果 仅 仅 给 出 了 选项 的 前 级 部 分 ,例如 使 用 --big-table 取 代 --big-tables，MySQI 将 会 
给 出 警告 ,而 MariaDB 将 会 正常 工作 。 也 就 是 说 ， 只 要 给 出 的 前 级 部 分 能 够 唯一 地 标识 该 


选项 即 可 。 

口 MariaDB 的 GTID 和 MySQL 5.6 的 GTID 不 能 兼容 ， 也 就 是 说 MySQL 5.6 不 能 作为 MariaDB 
10.0 的 从 库 。 

O 为 了 使 CREATE TABLE ... SELECT 命令 在 基于 行 模式 复制 和 基于 命令 模式 复制 的 情况 下 都 


能 正常 工作 ，MariaDB 中 CREATE TABLE ... SELECT 命令 在 从 库 上 将 会 被 转化 成 CREATE OR 
RPLACE 命 令 执行 。 这 样 的 好 处 是 即便 从 库 在 执行 CREATE TABLE ... SELECT 命令 时 罕 机 了 ， 
仍然 能 够 正常 工作 。 


1.4 编译 和 安装 MariaDB 


在 使 用 MariaDB 或 者 学 习 MariaDB 之 前 ， 建 议 首先 在 你 的 机 器 上 安装 MariaDB。 安 装 方式 主 
要 有 两 种 ,一 是 使 用 二 进 制 安装 包 进 行 安装 ,二 是 使 用 源 代码 进行 编译 安装 ， 下 面 我 们 分 别 进行 


介绍 。 


1.4.1 ”使 用 二 进 制 安装 包 进 行 安装 
使 用 二 进 制 安装 包 安装 MariaDB 是 非常 简单 的 ， 主 要 步骤 如 下 。 


(D) 根据 自己 的 系统 平台 ， 前 往 MariaDB 官 方 网 站 获取 MariaDB 对 应 的 二 进 制 安装 包 : https:/ 
downloads.mariadb.org/。 


(2) 解压 下 载 的 安装 包 ， 将 解压 后 的 二 进 制 文件 复制 到 指定 的 目录 : 


ww 


shell> tar zxvf mariadb-10.0.6-x86_64.tar.gz 
shell> cp -r mariadb-10.0.6-x86_64/* /usr/local/mariadb10/ 


(3) 创建 MariaDB 用 户 组 和 用 户 : 


shell> groupadd maria 
shell> useradd -r -g maria maria 


(4) 改变 目录 权限 : 


shell> cd /usr/local/mysql 
shell> sudo chown -R maria . 
shell> sudo chgrp -R maria . 


(5) 初始 化 MariaDB 系 统 表 : 


shell> sudo scripts/mysql_install_db --user=maria 
shell> sudo chown -R maria data 
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(6) 启动 MariaDB server 进 程 : 


shell> cd /usr/local/mysql 
shell> sudo bin/mysqld_safe --user=maria & 


1.4.2 ”使 用 源 代 码 进行 编译 安装 
使 用 源 代 码 编译 安装 MariaDB 主 要 包括 以 下 几 个 步 又。 


(1) 获取 MariaDB 源 代码 包 。 前 往 MariaDB 官 方 网 站 的 下 载 页 面 (https://downloads.mariadb.org/ ) 
下 载 MariaDB 的 源 代码 。 
(2) 解压 MariaDB 源 代码 包 : 


shell> tar zxvf mariadb-10.0.6.tar.gz 


(3) 编译 与 安装 MariaDB。 


MariaDB 5$.5 以 及 更 高 的 版 本 使 用 了 cmake 工 具 进 行 编译 ， 具 体 的 步骤 如 下 所 示 。 
(a) 首先 你 可 以 使 用 cmake 的 默认 配置 ， 也 可 以 为 cmake 添 加 选项 : 


shell> cd mariadb-10.0.6 
shell> cmake . 


(b) 运行 完 cmake 之 后 ， 建 立 和 安装 ; 


shell> make 
shell> sudo make install 


(c) 创建 MariaDB 用 户 组 和 用 户 : 


shell> groupadd maria 
shell> useradd -r -g maria maria 


(d) 改变 目录 权限 : 


shell> cd /usr/local/mysql 
shell> sudo chown -R maria . 
shell> sudo chgrp -R maria . 


(e) 初始 化 MariaDB 系 统 表 : 


shell> sudo scripts/mysql install db --user=maria 
shell> sudo chown -R maria data 


(启动 MariaDB server 进 程 : 


shell> cd /usr/local/mysql 
shell> sudo bin/mysqld_safe --user=maria & 
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(4) 连接 到 MariaDB server。 此 时 ，MariaDB 已 经 安装 


户 端 连接 并 进行 操作 : 


shell> cd /usr/local/mysql 
shell> bin/mysql -uroot 


在 执行 cmake 命 令 


定制 Makefile 的 目的 。 执 行 cmake . 


生成 Makefile 的 时 候 ， 


HE 2 


XIL 


携带 的 所 有 参数 ， 并 给 出 了 它们 的 含 义 和 默 认 信 。 


目 处 于 运行 状态 ， 


可 以 根据 自己 的 需求 为 cmake 添 加 不 同 的 参数 ， 
-Lh 命令 ， 可 以 查看 cmake 可 选 的 参数 。 表 1-1 列 出 了 cmake 可 以 


可 以 使 用 客 


达到 


表 1-1 cmake 参 数列 表 
参数 措 达 默认 值 
CMAKE_BUILD_TYPE 编译 类 型 ， 可 选 的 值 包括 : Debug, Release,  RelWithDebInfo 
RelWithDebInfo, MinSizeRel 
CMAKE_INSTALL_PREFIX 安装 目录 前 组 /usx/local/mysql 
COMMUNITY_BUILD 是 否 是 社区 共 建 ON 
CONNECT_WITH_LIBXML2 是 否 支持 使 用 LIBXML2 连 接 存储 引擎 ON 
CONNECT_WITH_MYSQL 是 否 支持 远程 MySQL 连 接 ON 
CONNECT_WITH_ODBC 是 否 支持 ODBC 连 接 ON 
CONNECT_WITH_XMAP 是 否 支持 索引 文件 映射 方式 连接 ON 
ENABLE_DEBUG_SYNC 是 否 启 用 同步 调试 ON 
ENABLE_GCOV 是 否 包含 GCOV 支 持 ON 
ENABLED_PROFILING 是 否 启 用 代码 查询 分 析 ON 
INSTALL_LAYOUT 安装 目录 布局 。 选 项 有 STANDALONE 、RPM、DEB、SVR4 STANDALONE 
MYSQL_DATADIR MySQL 数 据 目 录 /usr/local/mysql/data 
ODBC_INCLUDE_DIR 包含 sql.h 文 件 的 目录 /usr/include 
ODBC_LIBRARY 指定 ODBC 驱 动 管理 库 /usr/1ib/libodbc.so 


TMPDIR 
USE_ARIA_FOR_TMP_TABLES 
WITH_ARCHIVE_STORAGE_ENGINE 
WITH_ARTA_STORAGE_ENGINE 
WITH_BLACKHOLE_STORAGE_ENGINE 
WITH CONNECT _STORAGE_ENGINE 
WITH_EMBEDDED_SERVER 
WITH_EXTRA_CHARSETS 
WITH_FEDERATEDX_STORAGE_ENGINE 
WITH_ FEEDBACK 

WITH_LIBWRAP 

WITH LOCALES 
WITH_METADATA_LOCK_INFO 

WITH PARTITION STORAGE_ENGINE 


存放 MariaDB 临 时 文件 的 路 径 
使 用 Arial 货 时 

归档 静态 连接 到 服务 器 

是 否 安装 Aria 存 储 引擎 

是 否 安装 BLACKHOLE 存 储 引擎 
是 否 安装 CONNECT 存 储 引擎 


契合 

是 否 在 嵌入 式 服务 下 编译 MariaDB 
额外 的 字符 集 

是 否 安 装 FederatedX 存 储 引 擎 

是 否 安装 FEEEDBACK 存 储 引擎 
是 否 支持 libwrap 

是 否 静 态 关 联 LOCALES 

是 否 静 态 关 联 METADATA_ LOCK_INFO 
是 否 安装 PARTITION 存 储 引 擎 


ON 

OFF 
ON 

OFF 
OFF 
OFF 
all 
OFF 
OFF 
OFF 
OFF 
OFF 
ON 
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( 续 ) 
参 数 描 述 默 认 值 

WITH_PERFSCHEMA_STORAGE_ENGINE ”是否 安装 PERFSCHEMA 存 储 引 擎 ON 
WITH_QUERY_CACHE_INFO 是 否 静态 关联 QUERY CACHE INFO OFF 
WITH_QUERY_RESPONSE_TIME 是 否 静 态 关 联 QUERY RESPONSE OFF 
WITH_READLINE 使 用 捆绑 的 readline OFF 
WITH_SEMISYNC_MASTER 是 否 静 态 关 联 SEMISYNC_MASTER OFF 
WITH_SEMISYNC_SLAVE 是 否 静 态 关 联 SEMISYNC _SLAVE OFF 
WITH_SEQUENCE_STORAGE_ENGINE 是 否 安装 Sequence 存 储 引 擎 OFF 
WITH_SPHINX_STORAGE_ENGINE 是 否 安装 Sphinx 存 储 引擎 OFF 
WITH_TEST_SQL_DISCOVERY_STORAGE ”是 否 安装 TEST_ SQL DISCOVERY 存 储 引擎 OFF 

ENGINE 

WITH_UNIT TESTS 是 否 编译 MariaDB 单 元 测试 ON 

WITH_VALGRIND 是 否 支持 VALGRIND OFF 
WITH_XTRADB_STORAGE_ENGINE 是 否 安装 XtraDB 存 储 引 警 ON 

WITH_ZLIB 是 否 支持 zlib system 


1.5 联系 社区 


MariaDB 是 由 社区 进行 开发 和 维护 的 ， 当 你 碰 到 MariaDB 的 相关 问题 时 ， 可 以 与 社区 取得 联 
系 。 下 面 我 们 给 出 几 个 社区 的 联系 方式 。 


口 Launchpad 团 队 和 邮件 列表 。MariaDB 项 目 托管 在 Launchpad 上 ， 一 个 好 的 开始 是 去 加 入 
Launchpad 团 队 。 下 面 简 要 介绍 一 下 各 个 团队 。 


m maria-discuss 团 队 和 邮件 列表 ， 适 合 MariaDB 用 户 和 一 般 讨 论 。 

m maria-docs 团 队 和 邮件 列表 ， 适合 对 于 文档 感 兴 趣 的 人 。 

m maria-developers 团 队 和 邮件 列表 , 适合 一 些 想 贡献 代码 或 是 密切 关注 MariaDB 开 发 动态 
的 人 。 

m maria-captains 团 队 和 邮件 列表 ， 适合 受 信任 的 开发 人 员 将 代码 合并 到 官方 的 分 支 。 


口 MariaDB Commits 列 表 。 提 交 邮 件 发 送 到 commit@mariadb.org。 任 何人 都 能 够 订阅 提交 邮 
件 或 是 查阅 相关 提交 档案 。 

口 MariaDB Captains。Maria-captains 是 MariaDB 核 心 开发 团队 。 只 要 有 足够 的 技术 、 技 能 
且 积 极 参与 MariaDB 开 发 ， 都 能 成 为 这 个 团队 里 的 一 员 。 

口 MariaDB 公 告 列表 。 如果 你 只 是 想 知 道 最 新 MariaDB 的 消息 , 如 MariaDB 的 最 新 发 行 版 本 ， 
你 可 以 订阅 annouce@mariadb.org， 也 可 以 查阅 公告 档案 信息 。 

口 IRC。Maria 项 目 官 方 IRC 频 道 是 irc.freenode.net/maria。irc:irc.freenode.net/maria-meeting 频 
道 用 于 官方 会 议 。 为 了 用 户 的 利益 ， 官 方 并 没有 为 开发 者 单独 设立 一 个 频道 。 
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口 讨论 组 。 你 可 以 在 许多 的 开源 讨论 组 里 找到 研究 MariaDB 的 人 , 如 OReilly MySQL 讨 论 组 、 


OSCON 和 Open Source bridge。 也 可 以 参考 MariaDB 开 发 者 所 维护 的 讨论 组 列表 : 
https://mariadb.org/en/ conference/。 


口 要 求 增 加 新 特性 ,如 果 想 要 新 增 一 个 特性 , 既 可 以 在 MariaDB 官 方 网 站 的 JIRA 系 统 中 提交 ， 
也 可 以 自己 完成 这 个 特性 并 且 成 为 MariaDB 的 开发 者 。 

口 MariaDB 知 识 基 础 。MariaDB 知 识 基础 是 一 个 手册 ， 也 是 一 个 帮助 文档 ， 在 这 里 你 能 提问 

和 回答 关于 特定 MariaDB/MySQL 的 一 些 问题 。 


1.6 ”小结 


本 章 中 ， 我 们 介绍 了 MariaDB 的 一 些 基本 信息 ， 首 先 概览 了 MariaDB 的 历史 以 及 MariaDB 主 


要 做 的 一 些 事情 ， 接 着 介绍 了 MariaDB 和 对 应 版 本 的 MySQL 的 兼容 性 ， 最 后 讨论 了 如 何 对 
MariaDB 进 行 编译 和 安装 。 
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MariaDB 的 扩展 和 新 特性 Ea 


作为 MySQLI 的 深度 替代 者 ,MariaDB 的 主要 宗旨 是 朝 着 用 户 和 开发 者 所 期 望 的 方向 发 展 , 只 
要 是 用 户 需 要 的 、 对 用 户 有 用 的 特性 都 会 被 添加 进来 。 随 着 MariaDB 的 发 展 ， 越 来 越 多 有 用 的 特 
性 被 加 入 进来 .例如 , 更 多 的 存储 引擎 被 添加 到 MariaDB 中 用 于 满足 不 同 的 用 户 需求 ,binlog group 
commit 技 术 大 大 提高 了 MariaDB 在 高 并 发 事务 情况 下 的 性 能 ， 通 过 线程 池 技 术 让 MariaDB 支 撑 更 
多 的 连接 ,等 等 。 本 章 中 , 我们 将 介绍 MariaDB 所 包含 的 一 些 新 特性 以 及 对 MySQL 原 有 功能 做 的 
一 些 扩展 。 


本 音 的 内 容 主要 包括 : 


口 更 多 的 存储 引擎 
O 线程 池 技 术 和 binlog group commit 技 术 
口 MariaDB 其 他 扩展 和 新 特性 


2.1 更 多 的 存储 引擎 


MariaDB 一 个 很 显著 的 特点 就 是 除了 包含 一 些 标准 存储 引擎 ( 例如 MyISAM InnoDB , Heap, 
Blackhole, 、Archive、CSV 等 ) 外 ， 还 包含 了 许多 额外 的 具有 不 同 作 用 的 存储 引擎 ， 并 且 包 含 了 
自己 特有 的 存储 引擎 Aria。 你 可 以 通过 在 MariaDB 源 代码 的 storage 目 录 下 执行 1s 命 令 来 查看 所 有 
存储 引擎 ， 如 图 2-1 所 示 。 


jinpengzhang@jinpengzhang:~/mariadb-10.0.6/storage$ ls 
archive CSV heap y mrg sequence 


isa 
hole example innobase ndb sphinx 
ra €adarated aria naraph 


myisam 


图 2-1 MariaDB 的 存储 引擎 
2.1.1 全 新 的 Aria 存 储 引 擎 


Aria 是 MariaDB 的 一 个 全 新 的 存储 引擎 ， 它 是 作为 MyISAM 存 储 引 警 的 替代 者 而 开发 的 。 该 
存储 引擎 从 2007 年 开始 开发 ， 其 开发 者 是 开发 MySQL server, MyISAM, MERGEL MEMORY 
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存储 引擎 的 主要 成 员 。 


目前 ，Aria 存 储 引 警 的 最 新 版 本 是 1.5， 在 安全 方面 ， 它 拥有 毅 溃 自动 恢复 功能 ， 比 MyISAM 
更 安全 ; 在 性 能 方面 ，Aria 有 比 MyISAM 更 好 的 缓存 系统 ， 所 以 相对 于 MyISAM 有 一 定 的 提升 。 
Aria 目 前 还 不 支持 事务 ， 在 未 来 的 版 本 中 (2.0) 将 完全 支持 事务 。 


1. Aria 名 字 的 由 来 


在 Maria 项 目 刚 建立 的 时 候 ，Monty (MySQL 和 MYyISAM 的 创始 人 ) 和 最 初 的 开发 者 只 是 想 
开发 下 一 代 MyISAM 存 储 引 擎 ， 使 其 具有 骨 省 恢复 功能 ， 并 且 能 够 提供 事务 的 支持 。Monty 以 他 
女儿 的 名 字 Maria 作 为 该 项 目 以 及 该 存储 引擎 的 名 字 。 项 目 按部就班 地 进行 着 ， 随 着 项 目的 进行 ， 
事情 发 生 了 变化 ， 开 发 者 们 不 仅仅 是 工作 在 Maria 存 储 引擎 上 ， 而 是 工作 在 MySQL 的 一 个 完整 分 
支 上 ， 有 既然 这 个 项 目 叫 Maria ， 那 么 这 个 MySQL 的 分 支 就 很 自然 地 被 命名 为 MariaDB ， 这 就 是 
MariaDB 的 诞生 过 程 。 后 来 为 了 区 分 MariaDB 与 Maria 存 储 引 擎 , Maria 存 储 引擎 被 重新 命名 为 Aria。 

2. Aria 的 相关 参数 

@ 创建 Aria 表 的 可 选 参数 

Aria 存 储 引擎 为 CREATE TABLE 命 令 提 供 了 一 些 额 外 的 选项 供用 户 选择 ， 有 具体 如 下 所 示 。 

口 TRANSACTION= 0 | 1。 在 创建 表 时 ,你 可 以 通过 指定 该 选项 的 值 来 决定 是 否 让 你 的 表 支 持 
骨 演 恢复 。 在 默认 情况 下 ， 该 选项 的 值 为 0，， 也 就 是 说 默认 情况 下 创建 的 Aria 表 是 不 支持 
朋 演 恢复 的 。 如 果 指 定 了 该 选项 的 值 为 1!1， 所 有 的 修改 都 会 被 记录 到 事务 日 志 中 。 在 这 种 
情况 下 ， 会 降低 写 入 和 更 新 的 速度 ， 但 当 系 统 崩 演 重 启 时 ， 能 够 根据 事务 日 志 的 内 容 对 
执行 到 一 半 的 命令 进行 回 深 ， 使 数据 库 恢复 到 命令 执行 前 的 状态 。 

口 PAGE_CHECKSUM= 0 | 1。 数 据 块 和 索引 块 是 否 添加 额外 的 校 验 。 

口 TABLE_CHECKSUM= 0 | 1。 表 是 否 添加 额外 的 校 验 。 

口 ROW_FORMAT= PAGE。Aria 存 储 引擎 除 了 支持 MyISAM 的 所 有 行 格式 〈FIEXD 和 DYNAMIC ) 外 ， 
还 支持 页 模式 的 行 格式 ， 所 有 的 数据 和 索引 存储 在 页 内 ， 页 模式 只 有 在 TRANSACTION=1 的 
时 候 才 会 生效 。 在 Aria 的 缓存 机 制 中 ， 页 模式 下 缓存 的 是 一 个 个 的 页 。 

如 果 你 想 在 Aria 中 创建 一 个 类 似 于 MyISAM 的 非 事 务 表 , 可 以 通过 设置 以 下 参数 来 达到 目的 : 

CREATE TABLE t1 (a int) ROW FORMAT=FIXED TRANSACTIONAL=0 PAGE_CHECKSUM=0; 

或 者 

CREATE TABLE t1 (a int) ROW_FORMAT=DYNAMIC TRANSACTIONAL=0 PAGE_CHECKSUM=0; 


@ mysqld 中 与 Aria 相 关 的 可 选 参数 


在 mysqld 启 动 的 时 候 ， 有 一 些 与 Aria 存 储 引 擎 相关 的 选项 ， 如 表 2-1 所 示 。 
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表 2-1 mysqld 启 动 时 与 Aria 存 储 引 警 相 关 的 选项 
z 项 描 R A 认 值 
--aria[=#] 使 用 或 者 禁用 Aria 插 件 ,可 选 的 值 为 ON、OFF、FORCE (如 ON 
果 加 载 失败 ，mysqld 将 启动 失败 ) 
--aria-block-size=# Aria 索 引 页 的 大 小 8192 
--aria-checkpoint-interval=# 多 久 创建 一 次 检查 点 ， 单 位 为 秒 30 
--aria-force-start-after- 当 根 据 日 志 执 行 错误 恢复 时 , 如 果 连 续 出 现 该 参数 指定 0 
recovery-failures=# 个 数 的 错误 时 ， 将 采用 删除 日 志 的 方法 来 解决 问题 。0 
代表 不 使 用 该 特性 
--aria-group-commit=# 指定 Aria 存 储 引 擎 的 group commit (gc) 的 模式 ， 可 选 none 
的 值 有 none (不 使 用 gc) hard (等 待 提交 完成 )、soft 
(不 等 待 提交 完成 ， 存 在 风险 ) 
--aria-group-commit-interval=# group commit 的 时 间 间 隔 ， 单 位 为 微妙 (11000000 秒 )。 0 
该 选项 只 有 在 group commit 开 启 的 状态 下 才能 生效 
--aria-log-dir-path= name 存储 事务 日 志 的 文件 夹 datadir 
--aria-log-file-size=# 事务 日 志文 件 的 最 大 容量 1073741824 
--aria-log-purge-type= name Aria 事 务 日 志 的 清理 策略 。 可 选 的 值 为 immediate、 immediate 
external 和 at_flush 
--aria-max-sort-file-size=# 在 执行 ORDER BY 或 者 GROUP BY 命令 时 ， 当 结果 集 比 较 大 9223372036853727232 
时 会 使 用 临时 文件 
--aria-page-checksum 页 面 校 验 TRUE 
--aria-pagecache-age-threshold=# ”页 缓存 中 ， 被 评 为 热 块 (hotblock) 的 阔 值 。 页 缓存 中 300 


--aria-pagecache-buffer-size=# 
--aria-pagecache-division-limit=# 


--aria-recover[=#] 


--aria-repair-thread=# 


--aria-sort-bufer-size=# 


--aria-stats-method=# 


--aria-sync-log-dir=# 


的 运行 速度 就 越 快 。 


的 页 命中 次 数 达到 该 值 后 才能 被 认定 为 是 热 块 

Aria 表 的 数据 库 和 索引 块 使 用 的 缓存 区 大 小 

kik (warm block) 的 最 小 百分比 

指定 损坏 的 表 如 何 自动 修复 ， 可 选 的 值 有 NORMAL 、 
BACKUP, FORCE、OQUICK 和 OFF 

修复 表 时 使 用 的 线程 数 

当 Aria 进 行 表 修复 时 执行 的 索引 排序 以 及 用 户 调用 
CREATE INDEX 或 ALTER TABLE 创建 索引 时 使 用 的 缓存 区 
大 小 
对 于 NULL 值 的 统计 方式 ， 可 选 的 值 有 nulls_unequal、 
nulls_equal#fnulls ignored 

可 选 的 值 有 never、newfile 和 always 


通常 情况 下 ， 需 要 重点 关注 的 几 个 参数 有 下 面 几 个 。 
口 aria-pagecache-bufer-size。 所 有 的 数据 和 索引 都 缓存 在 这 个 buffer 中 ， 该 buffer 越 大 Aria 


口 aria-block-size。 块 大 小 ， 其 默认 值 8192 在 大 部 分 情况 下 都 是 可 以 的 。 
内 查找 使 用 的 是 二 分 查找 ， 但 在 块 内 使 月 


134217720 (= 128MB) 
100 
NORMAL 


1 


134217720 


nulls unequal 


newfile 


4 


WA i 


情况 下 ， 块 


压缩 存储 键 值 的 时 候 ， 在 块 内 使 用 的 是 扫描 查 


找 ，aria-block-size 的 值 太 大 会 影响 块 内 的 查询 时 间 。 可 选 的 值 为 2048、4096 和 8192。 
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口 aria-1og-purge-type。 如 果 你 想 保 留 事务 日 志文 件 并 将 其 作为 备份 ， 请 将 该 参数 设置 为 
af flush. 


3. Aria 的 PAGE 行 格式 


MyISAM 的 DYNAMIC 和 FIXED 行 格式 非常 简单 ， 而 且 不 会 占用 过 多 的 额外 空间 ， 当 数据 不 会 被 
修改 的 时 候 , 它们 表现 得 非常 优秀 。 如 果 修 改 比 较 多 ， 而 且 修改 后 的 行 数 据 比 原 来 大 , 那么 对 于 
DYNAMIC 行 格式 ， 性 能 会 急剧 下 降 。 使 用 PAGE 行 格式 ， 即 使 有 大 量 的 更 新 操作 ， 也 不 会 像 DYNAMIC 
行 格式 那样 , 它 仅 会 产生 非常 少 的 碎片 。 同时 ,PAGE 行 格式 使 用 了 页 缓存 , 具有 很 好 的 随机 性 能 。 


4. Aria 的 优 缺 点 


与 MyISAM 存 储 引擎 相 比 ，Aria 存 储 引擎 具有 很 多 的 优点 ， 上 具体 如 下 所 示 。 


口 Aria 的 数据 和 索引 具有 崩 演 恢复 功能 ， 如 果 发 生 朋 演 ，Aria 会 回 深 到 命令 执行 前 的 状态 。 

口 Aria 能 重 放 事 务 日 志 中 的 所 有 内 容 ， 因 此 你 可 以 使 用 事务 日 志 来 备份 Aria。 但 有 一 些 不 能 
重 放 : 往 空 表 批量 插入 ( 包括 LOAD DATA INFILE, SELECT ... INSERT 和 INSERT 多 行 ) )，ALTER 
TABLE 操 作 。 

口 LOAD INDEX 能 够 跳 过 一 些 不 需要 的 索引 页 。 

口 除了 支持 所 有 MyISAM 的 行 格式 外 , 还 支持 页 格式 , 数据 存储 在 页 内 , 页 的 默认 大 小 为 8KB。 

口 支持 对 一 张 表 的 并 发 插入 操作 。 

O 当 使 用 页 格式 时 ， 数 据 缓 存在 页 缓存 中 。 

口 同时 支持 朋 演 恢复 表 类 型 ( 未 来 将 实现 事务 ) 和 非 


alin 


和 务 表 类 型 。 
相对 于 MyISAM 存 储 引 擎 ，Aria 存 储 引 擎 也 存在 一 些 缺 点 ， 具 体 如 下 所 示 。 


口 Aria 不 支持 延迟 搬入。 
口 当 使 用 页 格式 时 ， 如 果 每 一 行 的 数据 比较 小 〈<25 字 节 )，Aria 的 性 能 会 受 影响 。 


在 Aria 的 未 来 版 本 中 ， 以 上 两 个 问题 都 将 解决 。 


2.1.2 ”XitraDB 存 储 引擎 


XtraDB 是 目前 MariaDB 的 默认 存储 引擎 。XtraDB 是 由 Percona 公 司 基 于 InnoDB 开 发 的 高 性 能 
存储 引擎 ， 其 主要 目的 是 用 于 替代 现 有 的 IanoDB。 可 以 将 XtraDB 看 作 是 InnoDB 的 增强 版 本 ， 它 
在 InnoDB 上 进行 了 大 量 的 修改 , 完全 兼容 现 有 的 InnoDB , 并 且 提 供 了 许多 InnoDB 不 具备 的 功能 。 


XtraDB 对 InnoDB 主 要 做 了 以 下 一 些 优 化 。 


O XtraDB 在 多 核 CPU 上 的 性 能 和 伸缩 性 更 好 。 
口 XtraDB 对 于 内 存 的 分 配 和 使 用 更 加 合理 和 高 效 。 
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口 解除 了 InnoDB 的 许多 限制 。 
口 提供 了 比 InnoDB 更 多 的 配置 和 性 能 监控 参数 。 


对 于 高 负载 的 MariaDB/MySQL 应 用 来 说 ， 完 全 可 以 使 用 XtraDB 存 储 引擎 来 替代 InnoDB 存 储 


引擎 。 


2.1.3 SphinxSE 存 储 引 擎 


SphinxSE 存 储 引擎 主要 用 于 全 文 检索 ，MariaDB 从 5.2 开 始 将 SphinxSE 存 储 引擎 加 入 进来 。 
SphinxSE 存 储 引擎 是 Sphinx 项 目的 一 部 分 ，Sphinx 是 用 C++ 编写 的 一 款 开 源 搜索 引擎 。 虽 然 名 字 
叫 存储 引擎 ， 但 SphinxSE 不 会 真正 地 存储 数据 ， 它 只 是 一 个 内 置 的 客户 端 ， 让 MariaDB/MySQL 
能 够 和 Sphinx 进 行 通信 ,能 够 在 MariaDB/MySQL 中 执行 查询 语句 , 而 Sphinx 将 匹配 的 结果 返回 来 。 
所 有 的 索引 动作 和 搜索 动作 都 发 生 在 MariaDB/MySQL 之 外 。 


想 要 通过 SphinxSE 存 储 引 擎 进行 搜索 , 你 首先 必须 创建 一 个 存储 引擎 为 SphinxSE 的 表 , 然后 
在 这 个 表 上 进行 SELECT 查询 。 


下 面 我 们 简单 介绍 一 下 如 何 使 用 SphinxSE。 


首先 通过 CREATE TABLE 创 建 一 个 表 ， 指 定 存储 引擎 为 Sphinx ， 并 且 指 定 Sphinx 的 searchd 的 位 
置 以 及 使 用 哪个 索引 。 搜 索 时 只 需要 按照 Sphinx 的 格式 来 执行 SELECT 语句 就 能 返回 想 要 的 结果 。 
相关 代码 如 下 : 


CREATE TABLE t1 
( 


id INTEGER UNSIGNED NOT NULL, 
weight INTEGER NOT NULL, 

query VARCHAR(3072) NOT NULL, 
group_id INTEGER, 

INDEX(query) 


) ENGINE=SPHINX CONNECTION="sphinx://localhost:9312/test"; 


SELECT * FROM t1 WHERE query="test it;mode=any"; 


可 以 登录 http://sphinxsearch.com 查 询 与 Sphinx 相 关 的 更 加 详细 的 信息 。 


2.1.4 FederatedX 存 储 引擎 


FederatedX 存 储 引 擎 是 Federated 存 储 引 擎 的 一 个 分 支 ， 其 主要 作用 是 访问 远程 的 数据 源 。 
FederatedX 存 储 引 警 表 并 不 存放 实际 的 数据 , 它 只 是 指向 一 台 远 程 MySQL/MariaDB 数 据 库 服 务 器 
上 的 表 。FederatedX 存 储 引擎 通过 libmysql 来 访问 远程 的 数据 库 。 当 前 的 FederatedX 存 储 引擎 只 支 
持 MySQL/MariaDB 的 表 ， 不 文 持 异 构 的 数据 库 表 。 
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2.1.5 TokuDB 存 储 引擎 


MariaDB 从 5.5 开 始 加 入 了 TokuDB 存 储 引 警 , 该 存储 引擎 使 用 了 分 形 树 作为 内 部 索引 的 结 术 
在 搬入 性 能 上 表现 优异 。TokuDB 非 常 适合 搬入 性 能 要 求 特别 高 的 应 用 场景 。 


2.1.6 Cassandra 存 储 引 擎 


Cassandra 存 储 引 擎 是 一 个 NoSQL 的 存储 引擎 ，MariaDB 在 10.0 中 引入 了 该 引擎 。MariaDB 可 
以 借助 Cassandra 存 储 引 擎 来 访问 Cassandra 集 群 的 数据 , 你 可 以 通过 多 个 MariaDB 实 例 访问 同样 的 
Cassandra 集 群 的 数据 ， 只 要 这 些 MariaDB 的 实例 上 都 安装 了 Cassandra 存 储 引 擎 。 


Cassandra 存 储 引擎 的 主要 目的 是 为 了 将 SQL 和 NoSQL 的 数据 进行 整合 。Cassandra 存 储 引擎 
提供 了 类 似 SQL 的 查询 语句 (CQL ) 来 访问 Cassandra 集 群 中 的 数据 。Cassandra 存 储 引 擎 并 没有 让 
Cassandra 成 为 一 个 SQL 数 据 库 ，Cassandra 存 储 引 擎 只 是 一 个 由 SQL 志 界 通 往 NoSQL 世 界 的 窗口 ， 
如 图 2-2 所 示 。 


Bee 
CSQL Mii D 


一 


MariaDB 解析 器 | | 优化 器 


Cassandra XtraDB | T 
存储 引擎 deio | | 其 他 在 储 引 区 


Sa InnoDB 
_£ Cassandra < 数据 文件 
集群 O 

DO 一 


图 2-2 ”Cassandra 存 储 引擎 


2.1.7 CONNECT 存储 引擎 


有 一 部 分 数据 以 纯 文本 文件 的 形式 或 者 其 他 的 形式 存储 于 关系 数据 库 之 外 ， 而 在 许多 企业 
中 ， 这 些 数据 需要 在 不 同 的 系统 中 使 用 。 通 常 的 做 法 是 通过 ETL (Extract, Transform, Load) 系 
统 对 这 些 数据 进行 处 理 , 然后 导入 到 关系 数据 库 中 供 一 些 系统 方便 地 使 用 。 当 这 些 外 部 数据 的 数 
据 量 非常 大 的 时 候 ，ETL 系 统 需 要 花费 很 长 的 时 间 来 处 理 这 些 数据 。 


上 面 描述 的 是 外 部 数据 的 访问 和 管理 问题 。 要 是 有 一 种 方法 能 够 轻松 访问 这 些 数据 ， 和 访问 
关系 数据 库 中 的 数据 那样 , 但 是 这 些 数据 又 不 需要 经 过 ETL 之 类 的 系统 进行 加 工 那 该 多 好 。 因 为 
我 们 知道 ， 当 外 部 数据 量 非常 大 时 ，ETL 系 统 会 消耗 很 长 的 时 间 来 处 理 这 些 数据 。CONNECT 存 
储 引 擎 在 某 些 方面 解决 了 这 个 问题 。MariaDB 从 10.0 开 始 引 入 了 CONNECT 存 储 引 擎 。 它 允许 
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MariaDB 像 访问 数据 库 中 表 的 数据 那样 访问 外 部 数据 。CONNECT 存 储 引 敬 具有 以 下 特点 。 


口 不 需要 添加 额外 的 SQL 语句 扩展 , 通过 CONNECT 存 储 引 擎 可 以 用 访问 数据 库 内 部 表 一 样 
的 方式 访问 外 部 数据 。 

口 内 置 了 许多 类 型 的 外 部 数据 的 封装 器 ， 例 如 纯 文 本 和 一 些 数据 源 等 。 

口 能 够 通过 CONNECT 存 储 引擎 对 文本 形式 以 及 大 多 数 数据 源 形 式 的 外 部 数据 进行 读 和 写 。 
口 CONNECT 存 储 引擎 只 会 访问 需要 的 数据 ， 不 会 访问 多 余 的 数据 。 

口 支持 索引 、 特 殊 列 和 虚拟 列 。 

口 对 于 分 区 表 ， 能 够 实现 并 发 执行 。 

口 能 够 在 远程 服务 名 上 执行 复杂 查询 。 

口 提供 了 C++ 的 接口 让 用 户 可 以 针对 外 部 数据 的 类 型 定制 封装 需 。 


以 上 我 们 只 是 对 CONNECT 存 储 引擎 进行 了 简单 的 介绍 ， 有 兴趣 想 要 更 深 一 步 了 解 的 读者 可 
以 自行 查阅 相关 的 资料 。 


2.1.8 _ Sequence 存储 引擎 


Sequence 存 储 引擎 能 够 生成 一 个 升序 或 者 降序 的 整数 序列 , 你 可 以 指定 这 个 序列 的 起 始 值 和 
终止 值 以 及 序列 增加 的 步 长 。Sequence 存 储 引擎 的 表 是 虚拟 的 、 短 暂 的 ， 是 不 能 持久 化 的 ， 同 时 
是 只 读 的 Sequence 存储 引擎 的 表 是 在 你 执行 SELECT 语句 时 自动 创建 的 , 没有 一 种 类 似 执行 CREATE 
命令 的 方法 来 创建 它们 。 创 建 一 个 Sequence 存 储 引 擎 的 表 不 会 在 磁盘 上 写 和 人 任何 内 容 ， 也 不 会 创 
建 .fm 格式 的 文件 。MariaDB 从 10.0 开 始 引进 了 Sequence 存 储 引 擎 。 


Sequence 表 的 使 用 非常 简单 。 当 你 想 使 用 一 组 序列 时 ， 执 行 简单 的 SELECT 语句 就 能 返回 你 想 
要 的 序列 ， 例 如 : 


SELECT * FROM seq 1 to 5; 


+------- 十 
seq 
+------- 十 

1 

2 

3 

4 

5 
+------- 十 


有 两 种 形式 的 SELECT 语句 可 以 返回 一 组 序列 : select_FROM to _T0_step_STEP 和 select_FROM_ 
to_T0。 上 面 的 例子 描述 的 是 采用 第 二 种 形式 的 SELECT 语句 来 生成 序列 ， 当 我 们 不 指定 步 长 时 ， 
默认 的 步 长 是 1。 下 面 我 们 给 出 一 个 使 用 第 一 种 形式 指定 步 长 生成 序列 的 例子 : 
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SELECT * FROM seq 5 to 1 step 2; 


+------- 十 
| seq | 
+------- 十 
| 5 

| 3 

| 1 | 
+------- 十 


Sequence 的 表 虽 然 是 虚拟 的 ， 但 毕 竞 也 是 一 种 表 ， 所 以 这 个 表 必 须 属于 某 个 库 。 在 使 用 
Sequence 的 表 之 前 必须 确保 它 已 经 处 于 某 个 库 内 ， 也 就 是 说 在 之 前 已 经 执行 过 use 命 令 。 


2.1.9 Spider 存储 引擎 


Spider 存储 引擎 内 置 了 分 片 功 能 ， 支 持 分 区 和 分 布 式 事务 。 通 过 Spider 存储 引擎 ， 你 可 以 像 
操作 本 地 MariaDB 实 例 的 表 一 样 来 操作 远程 MariaDB 实 例 上 的 表 ， 也 可 以 像 操 作 本 地 MariaDB 实 
例 的 表 一 样 来 操作 分 布 在 多 个 MariaDB 实 例 上 的 表 。 

当 创建 一 个 Spider 存储 引擎 的 表 时 ,该 表 指 向 远程 服务 器 上 对 应 的 一 张 表 或 多 个 实例 上 的 表 ， 
就 像 UNIX/Linux 中 的 软 链接 一 样 。 远 程 服 务 器 上 的 表 可 以 是 任何 存储 引擎 的 表 。 

在 执行 CREATE TABLE 命 令 创 建 Spider 存储 引擎 的 表 时 ， 需 要 添加 COMMENT 或 CONNECTION 语 法 来 
指定 远程 服务 器 的 地 址 等 信息 。 接 下 来 , 我 们 举 两 个 例子 来 介绍 一 下 Spider 存储 引擎 的 使 用 方法 。 
第 一 个 例子 介绍 了 如 何 使 用 Spider 存储 引擎 来 访问 远程 实例 上 的 数据 ， 第 二 个 例子 介绍 了 如 何 使 
用 Spider 存储 引擎 对 数据 进行 分 片 。 

1. 利用 Spider 存储 引擎 访问 远程 实例 的 数据 

例如 ， 我 们 在 远程 服务 器 上 存在 一 张 表 ， 创 建 表 的 语句 如 下 : 

node1 > CREATE TABLE s(id INT NOT NULL AUTO INCREMENT, code VARCHAR(10), PRIMARY KEY(id)); 

在 本 地 服务 器 上 我 们 创建 一 个 Spider 类 型 的 表 : 


CREATE TABLE s(id INT NOT NULL AUTO INCREMENT, code VARCHAR(10), PRIMARY KEY(id)) 
ENGINE=SPIDER 
COMMENT ‘host "127.0.0.1", user “user1", password "pswd1", port "8607"'; 


可 以 将 数据 插入 到 本 地 的 Spider 表 中 ， 本 质 上 该 数据 会 被 存储 到 远程 服务 器 对 应 的 表 中 : 


INSERT INTO s(code) VALUES ('a'); 


node1 > SELECT * FROM s; 
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2. 利用 Spider 存储 引擎 对 数据 进行 分 片 


上 面 的 例子 描述 了 如 何 通过 Spider 存储 引擎 访问 远程 数据 库 中 的 表 ， 下 面 我 们 给 出 一 个 通过 
Spider 存储 引擎 对 数据 进行 分 片 的 例子 。 例 如 ,我 们 有 3 个 数据 库 节 点 ,将 使 用 其 中 的 两 个 (DBI1 
和 DB2 ) 作为 存储 数据 的 数据 节点 ， 另 外 一 个 作为 Spider 点 ， 供 用户 进 行 操 作 。 


首先 在 两 个 数据 节点 上 分 别 执行 创建 表 语 句 ， 并 且 创 建 一 个 用 户 ， 让 Spider 节点 可 以 通过 该 
用 户 连 接 到 数据 节点 上 : 


CREATE TABLE db a.tbl_a( 
col_a int not null, 
col b varchar(20), 
col_c int not null, 
primary key(col_a) 

) ENGINE=INNODB ; 


CREATE USER user IDENTIFIED BY " password "; 
GRANT ALL ON *.* TO user@"%" IDENTIFIED BY "password"; 
FLUSH PRIVILEGES; 


然后 在 Spider 点 的 配置 文件 中 加 入 以 下 选项 : 


spider_internal_xa=1 
spider_semi_trx_isolation=3 #repeated read 


接着 在 Spider 节点 上 创建 一 个 Spider 表 ， 并 且 让 该 表 指 向 数据 节点 DB1 和 DB2: 


CREATE TABLE db a.tbl_a( 
col_a int not null, 
col b varchar(20), 
col_c int not null, 
primary key(col_a) 
)ENGINE=SPIDER CONNECTION='wrapper "mysql", user "user", password "password", table "tbl a", 
port "3306"' 
PARTITION BY KEY(col_a) 
(PARTITION pt1 COMMENT='host "DB1"', PARTITION pt2 COMMENT="host "DB2"'); 


当 我 们 访问 Spider 节点 的 db_atbl a 表 时 ，Spider 存 储 引 擎 自动 将 转向 数据 节点 DB1 和 DB2， 
这 样 就 很 方便 地 实现 了 数据 的 分 片 功能 , 而 且 Spider 存 储 引擎 是 支持 分 布 式 事务 的 , 如 图 2-3 所 示 。 
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Spiders = 


数据 节点 DB1 数据 节点 DB2 


图 2-3 ”Spider 存储 引擎 


2.2 ”线程 池 技 术 和 binlog group commit 技术 


MariaDB 的 线程 池 技 术 在 解决 最 大 连接 数 以 及 减少 大 量 线程 带 来 的 系统 开销 问题 上 发 挥 了 
巨大 的 作用 ， 而 MariaDB 的 binlog group commit 技 术 能 够 极 大 地 提升 数据 库 在 大 量 并 发 事务 下 单 
位 时 间 内 的 事务 提交 数 。 


2.2.1 线程 池 技 术 


我 们 知道 ，MySQL 的 传统 连接 模式 是 每 连接 每 线程 ，MySQL 会 给 每 个 连接 上 来 的 客户 端 分 
配 一 个 单独 的 线程 ,该 线程 处 理 该 客户 端 发 来 的 所 有 命令 。 随 着 MySQL 的 连接 数 越 来 越 多 , MySQL 
的 线程 数 也 会 相应 地 上 升 。MySQL 默 认 的 最 大 连接 数 是 1024， 也 就 是 说 当 连 接 的 客户 端 达 到 1024 
个 之 后 ， 新 来 的 客户 端 将 连接 不 上 MySQL 的 服务 端 。 当 然 ,可 以 通过 调整 参数 max_connections 来 
提高 MySQL 的 最 大 连接 数 ， 但 这 又 带 来 了 其 他 问题 : 首先 ， 每 个 线程 会 占用 一 定 的 系统 资源 ， 
线程 数 越 多 消耗 的 系统 资源 也 越 多 ; 其 次 , 线程 的 创建 和 销毁 是 有 一 定 开销 的 ; 最 后 , 也 是 非常 
重要 的 一 点 ， 当 线程 数 过 多 时 ， 如 果 其 中 大 部 分 线程 都 处 于 活跃 状态 , 将 会 导致 频繁 的 上 下 文 切 
换 ， 从 而 造成 巨大 的 系统 开销 。 

MariaDB 从 5.1 开 始 引 入 了 线程 池 技术 来 解决 最 大 连接 数 限制 问题 以 及 过 多 线程 带 来 的 系统 
开销 问题 。 线 程 池 技术 的 本 质 就 是 线程 复 用 ， 多 个 连接 之 间 共 享 线程 。 在 第 5$ 章 中 ， 我 们 将 详细 
介绍 MariaDB 的 线程 池 技 术 。 
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2.2.2 binlog group commit 技 术 


我 们 知道 , 操作 系统 使 用 页 面 缓存 机 制 来 填补 内 存 访 问 速度 和 磁盘 访问 速度 之 间 的 差距 。 通常 
情况 下 , 对 磁盘 文件 的 写 都 会 首先 写 人 到 页 面 缓存 中 , 然后 由 操作 系统 来 决定 何 时 将 修改 过 的 脏 页 
刷新 到 磁盘 上 。 如 果 想 确保 修改 已 经 持久 化 到 了 磁盘 ， 必 须 调用 fsync 或 者 fdatasync。 在 关系 数据 
库 中 ， 为 了 满足 ACID 中 的 D (持久 化 ) 属性 ， 也 就 是 说 事务 提交 并 且 成 功 返 回 给 客户 端 之 后 ， 必 
须 保 证 该 事务 的 所 有 修改 不 能 丢 。 无 论 是 在 数据 库 程 序 骨 淡 的 情况 下 , 还 是 在 数据 库 所 在 的 服务 器 
发 生 罕 机 或 者 断 电 的 情况 下 , 都 必须 保证 数据 不 能 丢 , 这 就 要 求 数据 库 在 事务 提交 过 程 中 调用 fsync 
或 fdatasync 将 数据 持久 化 到 磁盘 。fsync 是 一 个 昂贵 的 系统 调用 ， 对 于 普通 的 磁盘 ， 每 秒 只 能 完成 
几 百 次 的 fsync 操 作 ， 很 明显 ，fsync 将 会 限制 每 秒 钟 提交 的 事务 数 ， 成 为 关系 数据 库 的 瓶颈 。 


对 于 MariaDB/MySQL， 这 种 情况 变 得 更 加 糟糕 。 在 开启 binlog 的 情况 下 ,为 了 保证 主 库 和 从 
库 之 间 数 据 的 一 致 性 ，MariaDB/MySQL 使 用 了 事务 的 两 阶段 提交 协议 。 在 这 种 情况 下 ， 为 了 满 
足 数据 的 持久 化 需求 ， 一 个 事务 的 提交 最 多 会 导致 3 次 fsync 操 作 。 


为 了 提高 MariaDB/MySQL 在 开启 binlog 的 情况 下 单位 时 间 内 的 事务 提交 数 , 就 必须 减少 每 个 
事务 提交 过 程 中 导致 的 fsync 的 调用 次 数 。MariaDB 从 版 本 5.3 开 始 ， 引 入 了 binlog group commit 
技术 来 解决 这 个 问题 。MySQL 从 版 本 5.6 开 始 也 加 入 了 binlog group commit 技 术 ， 其 他 一 些 非 官方 
的 组 织 也 提交 了 自己 的 补丁 来 解决 这 个 问题 ,但 基本 思路 都 非常 相似 。 


binlog group commit 的 基本 思想 是 多 个 并 发 提交 的 事务 之 间 共 用 一 次 fsync 操 作 来 实现 事务 
对 binlog 修 改 的 持久 化 。 在 第 7 章 中 ， 我 们 将 对 该 技术 做 详细 的 分 析 。 


2.3 MariaDB 其 他 扩展 和 新 特性 


除了 上 面 介 绍 过 的 包含 更 多 有 用 的 存储 引 敬 、 使 用 线程 池 技 术 处 理 大 量 连 接 问 题 以 及 采用 
binlog group commit 提 高 系统 在 高 并 发 事务 情况 下 的 性 能 之 外 ，MariaDB 还 包含 了 许多 其 他 有 用 
的 特性 ,例如 支持 更 精确 的 时 间 类 型 ,支持 虚拟 列 和 动态 列 ， 提 供 更 多 的 统计 信息 ,支持 某 些 命 
令 执 行进 度 报告 ， 让 用 户 实时 了 解 命令 的 执行 情况 ， 等 等 。 本 节 中 , 我 们 将 简单 介绍 其 中 的 一 些 
特性 ， 更 加 详细 全 面 的 介绍 请 参考 MariaDB 的 官方 文档 https://mariadb.com/kb/en/mariadb-vs- 
mysql-features。 


2.3.1 更 高 的 时 间 精 度 


从 MariaDB 5.3 开 始 ，TIME 、DATETIME 和 TIMESTAMP 这 三 个 时 间 类 型 最 高 可 以 支持 微 秒 级 别 的 
时 间 精 度 。 在 使 用 CREATE TABLE 命 令 创建 表 时 ， 可 以 为 时 间 所 在 的 列 指定 你 想 要 的 时 间 精 度 ， 示 
例如 下 : 
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CREATE TABLE example ( 
col microsec DATETIME(6), 
col millisec TIME(3) 
); 
在 上 面 的 例子 中 ， 列 col_microsec 具 有 微 秒 级 别 的 时 间 精 度 ， 而 列 col_millisec 具 有 毫秒 级 
别 的 时 间 精 度 。 你 可 以 在 TIME 、DATETIME 和 TIMESTAMP 类 型 后 面 添加 额外 的 用 小 括号 括 起 来 的 整数 
来 确定 时 间 精 度 ， 整 数 的 取 值 范围 为 0~6， 如 果 在 类 型 后 面 什么 也 没 添加 ， 是 和 添加 (0) 的 效果 
一 臻 ， 将 使 用 秒 级 别 的 时 间 精 度 。 


2.3.2 ”虚拟 列 


虚拟 列 是 表 中 这 样 的 列 , 它们 的 值 是 根据 确定 的 表达 式 或 者 是 根据 表 中 其 他 列 的 值 自动 计算 
的 。 创 建 虚拟 列 的 语法 如 下 : 


<type> [GENERATED ALWAYS] AS (expression) 
[VIRTUL | PERSISTENT] [UNIQUE] [UNIQUE KEY] [COMMENT <text>] 


其 中 type 指 定 了 列 的 类 型 ，expression 指 定 了 计算 虚拟 列 值 的 表达 式 。 有 两 种 虚拟 列 : 被 VIRTUAL 
关键 字 修 饰 的 虚拟 列 , 该 列 的 值 将 会 在 查询 的 时 候 计算 生成 ; 被 PERSISTENT 关 键 字 修饰 的 虚拟 列 ， 
虚拟 列 的 值 存储 在 表 中 。 下 面 给 出 了 一 个 使 用 虚拟 列 的 例子 : 
CREATE TABLE example virtual_columns( 
a INT(11) PRIMARY KEY, 
b VARCHAR(32), 


c INT(11) AS (a mod 10) VIRTUAL, 
d VARCHAR(5) as (left(b, 5)) PERSISTENT); 


虚拟 列 c 的 值 将 会 在 查询 时 计算 ,而 虚拟 列 d 的 值 被 存储 在 表 中 ， 查询 的 时 候 直接 从 表 里 取 出 。 当 
使 用 DESC 命 令 查看 表 的 定义 时 ， 可 以 很 容易 在 Extra 列 中 找到 哪些 列 是 虚拟 列 : 


mysql> DESC example_virtual_columns; 


+------- +------------------- +-------- +-------- +------------------ +------------------- 十 
| Field | Type | Null | Key | Default | Extra | 
+------- +------------------- +-------- +-------- +------------------ +------------------- 十 
| a | int(11) | NO | PRI | NULL | | 
| b | varchar(32) | YES | | NULL | | 
| < | int(11) | YES | | NULL | VIRTUAL | 
|d | varchar(5) | YES | | NULL | PERSISTENT | 
+------- +------------------- +-------- +-------- +------------------ +------------------- 十 


同时 很 容易 通过 执行 SHOW CREATE TABLE 命 令 来 查看 生成 虚拟 列 的 表达 式 : 


mysql> SHOW CREATE TABLE example virtual_columns \G; 
AEC kkk 7 roy ba HHS o ooo okk 


Table: example_virtual_columns 
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Create Table: CREATE TABLE “example virtual_columns~ ( 
“a> int(11) NOT NULL, 
`b` varchar(32) DEFAULT NULL, 
~c> int(11) AS (a mod 10) VIRTUAL, 
~d> varchar(5) AS (left(b, 5)) PERSISTENT, 
PRIMARY KEY (`a`) 

) ENGINE=InnoDB DEFAULT CHARSET=latin1 


在 执行 搬入 操作 时 ， 虚 拟 列 使 用 default 关 键 字 代替 就 可 以 。 如 果 为 虚拟 列 指定 值 ， 将 会 导 
致 错误 的 发 生 : 
mysql>INSERT INTO example_virtual_columns VALUES (16, "abcdefghijkl", default, default); 


Query OK, 1 row affected (0.01 sec) 
mysql> SELECT * FROM example _virtual_columns; 


+------- +------------------- +-------- +------------------ 十 
| a | b | < | d | 
+------- +------------------- +-------- +------------------ 十 
| 16 | abcdefghijkl | 6 | abcde 

+------- +------------------- +-------- +------------------ 十 


1 row in set (0.00 sec) 


mysql> INSERT INTO example virtual_columns VALUES (17, "abcdefghijkl", default, "there"); 
ERROR 1906 (HY000): The value specified for computed column 'd' in table ‘example virtual_columns' ignored 


2.3.3 ”用户 统计 功能 


从 版 本 5$.2 开 始 ，MariaDB 引 入 了 用 户 统计 (user statistics) 功能 ， 该 功能 主要 用 于 统计 客户 
端 、 使 用 者 、 索 引 使 用 情况 以 及 表 使 用 情况 等 信息 ， 让 用 户 更 加 了 解 自己 的 MariaDB 实 例 的 运行 
状况 。 


MariaDB 的 用 户 统 计 功 能 是 基于 Percona 和 Ourdelta 的 userstatv2 包 实现 的 ， 并 且 在 此 基础 上 做 
了 许多 改进 ， 使 其 在 性 能 上 更 快 ， 在 功能 上 更 加 全 面 。 


1. 开启 用 户 统计 功能 


默认 情况 下 用 户 统计 功能 是 关闭 的 ,需要 在 MariaDB 启 动 之 前 在 配置 文件 或 者 命令 行 添加 以 
下 参数 开启 : 


userstat = 1 

此 外 ， 也 可 以 执行 SET 命令 动态 启动 该 功能 : 
SET GLOBAL userstat = 1; 

2. 查看 用 户 统计 信息 


用 户 统 计 功能 在 INFORMATION_SCHEMA 库 中 添加 了 CLIENT_STATISTICS 、USER_STATISTICS 、 
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INDEX_STATISTICS 和 TABLE_STATISTICS 四 个 表 ， 用 来 统计 不 同 的 信息 。 表 CLIENT_STATISTICS 记 录 
了 客户 端 连 接 相 关 的 信息 ， 例 如 客户 端的 耳 地 址 、 从 某 个 耳 地 址 过 来 的 连接 数 等 信息 。 表 
USER_STATISTICS 记 录 的 是 用 户 行为 相关 的 信息 , 例如 哪个 用 户 产生 了 大 部 分 压力 , 哪个 用 户 在 滥 
用 数据 库 资源 等 信息 。 表 INDEX_STATISTICS 统 计 索 引 的 使 用 情况 ， 通 过 查看 该 表 的 统计 信息 ， 可 
以 发 现 一 些 没 用 的 索引 并 将 其 删除 ， 达 到 优化 数据 库 的 目的 。 表 TABLE_STATISTICS 记 录 表 的 使 用 
情况 ， 例 如 某 个 表 修改 的 行 数 ， 从 该 表 读 取 了 多 少 行 等 信息 。 


有 两 种 方式 查询 用 户 统计 信息 一 一 使 用 SHOW 或 者 SELECT 命令 : 


SHOW table_name; 
SELECT * FROM INFORMATION SCHEMA. table_name; 


其 中 table_name 为 4 个 表 中 的 一 个 ， 例 如 以 下 命令 用 于 查询 客户 端 相关 的 统计 信息 : 


mysql> SELECT * FROM INFORMATION SCHEMA.CLIENT STATISTICS \G; 
FRR OR RK RAR OR KK KK A RR OK KK OK EK EK OK 1. row DR RK AR OR OR RK KK A OR OK KK K E K OK KKK KK 
CLIENT: localhost 
TOTAL_CONNECTIONS: 3 
CONCURRENT_CONNECTIONS: 0 
CONNECTED_TIME: 58887 
BUSY_TIME: 0.532569 
CPU_TIME: 0.027318300000000007 
BYTES RECEIVED: 537 
BYTES SENT: 21540 
BINLOG BYTES WRITTEN: 0 
ROWS_READ: 1 
ROWS_SENT: 
ROWS_DELETED: 
ROWS INSERTED: 
ROWS_UPDATED: 
SELECT COMMANDS: 
UPDATE_COMMANDS: 
OTHER_COMMANDS: 
COMMIT TRANSACTIONS: 
ROLLBACK_TRANSACTIONS: 
DENIED CONNECTIONS: 
LOST_CONNECTIONS: 
ACCESS DENIED: 
EMPTY_QUERIES: 
1 row in set (0.00 sec) 


3. 重 置 用 户 统计 信息 


MariaDB 提 供 了 以 下 4 个 命令 来 重 置 相应 的 用 户 统计 信息 。 通 过 执行 这 些 命令 ， 用 户 就 可 以 
在 执行 某 些 操作 后 重新 开始 监控 MariaDB 的 运行 状况 : 


e 
~ 


[= OO WOO 8 
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FLUSH CLIENT STATISTICS; 
FLUSH USER_STATISTICS; 

FLUSH INDEX_STATISTICS; 
FLUSH TABLE STATISTICS; 


2.3.4 KILL 命 令 的 扩展 


对 于 MySQL 来 说 ， 在 传统 的 每 连接 每 线程 模式 下 ， 你 可 以 通过 执行 SHON PROCESSLIST 命 令 查 
看 某 条 正在 执行 的 语句 对 应 的 线程 号 , 然后 通过 执行 如 下 命令 来 终止 一 个 连接 或 者 终止 该 连接 上 
正在 执行 的 命令 : 

KILL [CONNECTION | QUERY] thread id 


当 执 行 KILL 命 令 时 ,如 果 携 带 了 CONNECTION 修 饰 词 , 将 会 终止 thread iqd 指 定 的 线程 ; 如 果 携 
带 了 QUERY 修 饰 词 ,仅仅 终止 该 线程 当前 正在 执行 的 命令 ， 线 程 仍然 保持 ; 如 果 不 带 任何 修饰 词 ， 
其 效果 和 携带 CONNECTION 修 饰 词 一 样 ， 将 会 终止 thread 14 指定 的 线程 。 


MariaDB 对 KILL 命 令 主 要 做 了 两 个 扩展 , 一 个 是 添加 了 HARD|SOFT 修 饰 词 , 另 一 个 是 终止 某 个 
用 户 的 所 有 线程 或 正在 执行 的 所 有 命令 。MariaDB 的 KILL 命 令 的 语法 如 下 : 

KILL [HARD | SOFT] [CONNECTION | QUERY] [thread id | USER user name | query id] 

如 果 在 执行 KILL 命 令 时 采用 了 HARD 修 饰 词 ， 那 么 将 会 尽快 终止 正在 执行 的 命令 或 对 应 的 线 


程 ; 如 果 采 用 了 SOFT 修饰 词 ， 那 么 正在 执行 的 某 些 命令 ( 例如 REPAIR 或 者 CREATE INDEX 命 令 ) 将 
不 会 被 打 断 ， 因 为 这 些 命令 如 果 被 打 断 将 会 导致 表 处 于 不 一 致 的 状态 。 


KILL ... USER user name 将 会 终止 wser name 用 户 的 所 有 连接 或 正在 执行 的 所 有 命令 ， 其 中 
Wser_name 可 以 通过 以 下 3 种 方式 指定 : 


h 


h 


QO) user name 
QO) user name @localhost 
O CURRENT_USER 或 者 CURRENT_USER() 


2.3.5 ”命令 执行 进度 报告 

在 我 们 使 用 MySQL 的 过 程 中 ， 可 能 会 遇 到 在 表 有 一 定量 的 数据 之 后 需要 执行 一 些 DDL 操 作 
来 满足 新 增 的 需求 。 虽 然 我 们 提倡 表 的 结构 应 该 提前 设计 好 ,尽量 不 要 在 表 的 数据 量 很 大 时 执行 
DDL 操 作 , 但 你 不 能 要 求 用 户 总 能 预测 所 有 可 能 发 生 的 需求 。 这样 的 DDL 操 作 是 非常 耗 时 的 , 根 
据 表 的 数据 量 的 不 同 可 能 需要 耗费 数 小 时 甚至 数 十 小 时 。 等 待 是 个 漫长 的 过 程 , 特别 是 在 不 知道 
还 要 等 多 久 的 时 候 。 


从 版 本 5.3 开 始 ， MariaDB 对 某 些 耗 时 的 命令 提供 了 进度 报告 的 功能 ,通过 该 功能 ,我 们 能 够 
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清楚 地 了 解 到 命令 的 执行 进度 , 很 容易 估算 出 命令 还 需要 持续 多 长 时 间 。 支持 进度 报告 的 命令 包 
括 以 下 几 个 : 


口 ALTER TABLE 

C) CREATE INDEX 

C) DROP INDEX 

C) LOAD DATA INFILE 


在 执行 SHOW PROCESSLIST 命 令 时 ， 会 发 现 MariaDB 比 MySQL 多 了 一 列 输出 progress， 该 列 用 
来 报告 命令 总 的 执行 进度 (0 ~ 100% ): 


mysql> SHOW PROCESSLIST; 


+------- +-------- +-------------------------- +--------- +------------------------- +---------------- 十 
| Id | User | Host |> | Info | Progress | 
+------- +-------- +-------------------------- +--------- +------------------------- +---------------- 十 
| 12 | root | localhost:44097 | . | show processlist | 0.000 | 
+------- +-------- +-------------------------- +--------- +------------------------- +---------------- 十 


1 row in set (0.00 sec) 


2.3.6 ”动态 列 


从 版 本 5.3 开 始 ，MariaDB 引 入 了 动态 列 的 概念 ， 允 许 一 个 表 的 每 一 行 存储 不 同 列 的 信息 。 
MariaDB 的 动态 列 通过 将 一 个 列 集合 存储 在 blob 字 段 中 ， 并 且 定 义 一 个 操作 实现 这 些 列 的 函数 集 
合 。 动 态 列 适合 于 某 些 不 确定 的 场景 ， 例 如 某 个 商品 的 属性 个 数 不 确 定 并 且 将 来 可 能 还 会 添加 。 


想 要 使 用 动态 列 ， 首 先 表 中 必须 包含 blob 类 型 的 列 : 


create table assets ( 
item name varchar(32) primary key, 
dynamic cols blob 


); 
接 下 来 ， 就 可 以 使 用 MariaDB 定 义 的 动态 列 操作 孔 数 对 动态 列 进行 存 取 操作 : 


INSERT INTO assets VALUES ("MariaDB T-shirt", COLUMN CREATE("color", "blue", "size", "XL")); 
INSERT INTO assets VALUES ("Thinkpad Laptop", COLUMN CREATE ("color", "black", "price", 500)); 


以 上 两 条 语句 往 assets 表 中 插入 了 两 行 记录 ， 接 下 来 查询 商品 的 颜色 情况 : 


mysql> SELECT item name, COLUMN GET(dynamic cols, "color" as char) AS color FROM assets; 


+---------------------------- +-------- 十 
| item_name | color | 
+---------------------------- +-------- 十 
| MariaDB T-shirt | blue | 
| Thinkpad Laptop | black | 


+---------------------------- +-------- + 
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此 外 ， 还 可 以 动态 删除 或 者 增加 茶 行 的 动态 列 : 


UPDATE assets SET dynamic_cols = COLUMN DELETE(dynamic_cols, "price") WHERE COLUMN GET(dynamic cols， 
"color" as char)= "black"; -- 删 除 动态 列 


UPDATE assets SET dynamic_cols = COLUMN ADD(dynamic_cols, "warranty", "3 years") WHERE 
item_name="Thinkpad Laptop"; -- 增 加 动态 列 


你 可 以 通过 调用 COLUMN_LIST 函 数 来 查看 动态 列 的 情况 , 或 者 使 用 COLUMN_JSON 函 数 以 JSON 的 
格式 来 查看 动态 列 以 及 它们 对 应 的 值 : 


SELECT item_name, COLUMN_LIST (dynamic_cols) FROM assets; 


| MariaDB T-shirt 
| Thinkpad Laptop 


"size","color" | 
"color", "warranty" | 


SELECT item_name, COLUMN JSON(dynamic_cols) FROM assets; 


+---------------------------- +------------------------------------------------------------- 十 
| item_name | COLUMN_JSON(dynamic_cols) | 
+---------------------------- +------------------------------------------------------------- 十 
| MariaDB T-shirt | {"size":"XL","color":"blue"} | 
| Thinkpad Laptop | {"color":"black", "warranty":"3 years"} | 
+---------------------------- +------------------------------------------------------------- 十 


2.3.7 多 源 复制 


MySQL 能 够 轻松 实现 一 主 多 从 的 功能 , 但 是 想 将 多 个 实例 复制 到 一 个 实例 中 还 是 比较 难 的 。 
当然 ， 可 以 通过 多 级 复制 来 达到 目的 ,但 这 种 方式 不 是 那么 优雅 ,而 且 存在 一 定 的 问题 ， 例 如 网 
络 流量 的 增加 以 及 产生 宛 余 的 binlog 等 .幸好 MariaDB 很 好 地 解决 了 这 个 环 手 的 问题 。 从 10.0 开 始 ， 
MariaDB 引 入 了 多 源 复制 的 机 制 ， 允 许 一 个 从 库 可 以 指定 多 个 主 库 作 为 数据 源 。 多 源 复制 允许 将 
多 个 实例 的 数据 进行 聚合 ， 然 后 进行 备份 或 者 进一步 的 分 析 。 


我 们 将 在 第 8 章 中 对 MariaDB 的 多 源 复制 进行 详细 深入 的 介绍 。 


2.4 小 结 
本 章 中 ,我 们 对 MariaDB 的 一 些 扩展 以 及 新 特性 进行 了 简单 的 介绍 ， 这 里 我 们 简单 回顾 这 些 
内 容 。 


MariaDB 相 对 于 MySQL 具 有 更 多 的 存储 引擎 ， 用 于 满足 不 同 的 需求 。 同 时 ，MariaDB 还 拥有 
自己 特有 的 存储 引擎 一 一 Aria 存 储 引 敬 。Aria 存 储 引擎 文 持 崩溃 恢复 功能 ， 相 对 于 MyISAM 来 说 
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具有 更 好 的 数据 安全 性 。 


MariaDB 的 线程 池 技 术 在 解决 最 大 连接 数 限制 问题 以 及 过 多 线程 带 来 的 系统 开销 问题 方面 
发 挥 了 巨大 作用 。MariaDB 的 binlog group commit 技 术 通过 在 并 发 的 多 个 事务 之 间 共 享 fsync/fdatasync 
操作 来 使 MariaDB 在 高 并 发 事务 下 得 到 极 大 的 性 能 提升 。MariaDB 还 支持 其 他 一 些 非 常 有 用 的 特 
性 ， 例 如 支持 动态 列 、 虚 拟 列 和 多 源 复制 ， 等 等 。 


第 3 章 


初 识 MariaDB 源 代码 


开源 一 个 很 大 的 好 处 就 是 源 代码 可 以 很 容易 获取 ,有 了 源 代码 我 们 就 可 以 阅读 学 习 或 者 进行 
二 次 开发 。MariaDB 的 源 代码 相对 来 说 比较 多 , 这 让 许多 有 兴趣 阅读 它 的 读者 不 知道 从 哪儿 开始 ， 
以 致 望而却步 。 本 章 中 ， 我们 首先 来 讲解 MariaDB 源 代码 的 目录 组 织 结构 ， 让 读者 对 MariaDB 的 
源 代码 有 个 宏观 上 的 认识 ， 然 后 介绍 MariaDB 对 基础 类 型 以 及 函数 的 封装 ， 最 后 介绍 如 何 调试 
MariaDB。 读 者 可 以 按照 程序 的 执行 流 来 阅读 MariaDB 的 代码 。 


本 章 的 内 容 主 要 包括 : 


口 MariaDB 源 代码 的 目录 组 织 结构 
口 MariaDB 对 类 型 和 函数 的 封装 
口 调试 MariaDB 


3.1 MariaDB 源 代 码 的 目录 组 织 结构 


获得 MariaDB 的 源 代码 包 之 后 ,采用 适当 的 解压 命令 将 其 解压 ， 得 到 的 源 代码 目录 结构 如 图 
3-1 所 示 。 


JinpengznangeJtnpengznang: ~/mariadb-10.0.6$ ls 
CREDITS Lib ql randgen TODO 
dbug unittest 
a VERSION 


cma vio 
MakeLists.txt e ql- win 


cmd-line-utils L e zlib 
onfig.h.cmake INSTALL - SOURCE 
onfigure.cmake INSTALL-WIN-SOURCE pa cka 
KNOWN_BUGS.txt 
. LESSER libevent 


图 3-1 MariaDB 源 代码 的 目录 结构 
表 3-1 以 列表 的 形式 将 MariaDB 源 代码 主要 目录 的 作用 列举 出 来 -MariaDB 作 为 MySQL 的 一 个 


分 支 ， 代 码 的 组 织 结 构 和 MySQL 有 很 多 类 似 的 地 方 ， 所 以 列表 中 的 内 容 对 于 想 要 阅读 MySQL 源 
代码 的 读者 同样 具有 一 定 的 参考 价值 。 表 3-1 中 列 出 的 是 MariaDB 10.0.6 的 源 代码 结构 ， 新 版 本 的 
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代码 结构 可 能 会 有 一 些 改动 ， 但 大 部 分 的 结构 会 比较 稳定 


表 3-1 MariaDB 源 代码 的 目录 结构 


目录 名 称 说 明 

BUILD 开发 者 构建 脚本 

client 命令 行 客户 端 程序 代码 

cmake cmake 使 用 的 文件 夹 

cmd-line-utils 命令 行 客户 端的 外 部 库 (libedit 和 readline) 

dbug 调试 库 

Docs 模块 的 说 明文 档 

extra 其 他 工具 代码 ， 包 括 jemalloc 和 yaSSL 

include 包含 文件 ， 包 括 基础 类 型 和 数据 结构 的 定义 等 

libevent libevent 网 络 库 的 源 代码 

libmysql 客户 端 连接 服务 器 相关 的 代码 

libmysqld 以 STANDALONE 模 式 使 用 MariaDB 的 功能 ， 不 需要 通过 客户 端 连接 到 MariaDB 

Iman UNIX 手 册页 

mysql-test 回归 测试 包 

mysys 基础 接口 的 可 移植 性 封装 ， 例 如 文件 读 写 接口 、 锁 封装 ， 等 等 

mysys_ssl 对 OpenSSL/yaSSL 的 封装 

packaging 打包 工具 

pere PCRE 模 式 匹 配 库 的 相关 代码 

plugin MariaDB 的 某 些 插 件 的 代码 ， 例 如 半 同 步 复制 插件 相关 的 代码 

randgen 生成 测试 语句 的 脚本 

scripts 各 种 用 途 的 脚本 ， 例 如 在 我 们 安装 完 MariaDB 后 需要 执行 该 目录 下 的 mysql_install db.sh 脚 本 创 
建 一 些 基本 的 数据 库 

sql 服务 端的 所 有 核心 代码 。mysqld 的 启动 min 函数 在 该 文件 来 下 的 mysqld.cc 文 件 中 

sql-bench 压力 测试 的 相关 脚本 

sql-common 客户 端 和 服务 端 都 会 用 到 的 一 些 代 码 

storage 包含 了 所 有 的 存储 引擎 相关 的 代码 

strings 自 定义 字符 串 库 相关 的 代码 

support-files 各 种 配置 文件 实例 和 实用 脚本 

tests 一 些 难以 重 现 bug 的 相关 测试 

unittest 核心 API 的 单元 测试 

vio 底层 可 移植 网 络 VO 的 相关 代码 

win Windows 平 台 下 的 打包 升级 工具 


zlib zlib 压 缩 库 的 相关 代码 
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3.2 MariaDB 对 类 型 和 函数 的 封装 

MariaDB 对 基本 的 类 型 以 及 一 些 系 统 调 用 和 C 函 数 进行 了 封装 ， 以 达到 更 好 的 移植 性 和 更 好 
的 抽象 。 
3.2.1 对 类 型 的 封装 


在 C/C++ 程序 中 ， 我 们 经 常 使 用 typedef 关 键 字 来 定义 类 型 
的 类 型 声明 ， 示 例如 下 : 


/*=============eXample 3-1 : typedef 定 义 类 型 别名 ==============*/ 


名， 或 者 使 用 typedef 简 化 复 困 


x 


// 使 用 原 有 类 型 声明 
int socket_fd; 


// 使 用 类 型 别名 声明 
typedef int SOCKET T; 
SOCKET_T socket_fd; 


/*=============eXample 3-2 3 typedef 简 化 复杂 的 上 声 明 =============*/ 
int *(*a[5])(int, char*); // 声明 一 个 函数 指针 数组 a 


typedef int *(*pFun)(int, char*);  // 使 用 typedef 简 化 a 的 声明 

pFun a[5]; 

在 第 一 个 例子 中 ， 我 们 定义 了 int 的 别名 Ss0CKET_T， 这 样 在 我 们 使 用 套 接 字 的 时 候 ， 使 用 的 
是 类 型 SOCKET_T， 而 不 是 int。 一 方面 ， 类 型 别名 使 程序 具有 更 好 的 易 读 性 ， 表 达 的 意思 更 加 确 
切 ; 另 一 方面 ， 别 名 为 程序 提供 更 好 的 抽象 ， 当 某 一 天 套 接 字 描述 符 不 再 是 int 类 型 时 ， 我 们 只 
需要 更 改 typedef 的 定义 就 可 以 了 。 


下 面 是 MariaDB 中 几 个 类 型 别名 的 例子 ， 大 部 分 的 类 型 别名 都 以 my_ 开 头 : 


typedef int my_socket; 

typedef int File; 

typedef unsigned long long int my_off_t; 
typedef char my bool; 


除了 使 用 typedef 为 基本 类 型 定义 类 型 别名 外 ,MariaDB 还 对 一 些 经 常 使 用 并 且 与 系统 相关 的 
类 型 进行 了 封装 ， 主 要 目的 是 为 了 实现 跨 平台 。 例 如 ，mysql_mutex_t 是 对 类 型 pthread_mutex_t 
的 封装 ，mysql_cond t 是 对 类 型 pthread_cond t 的 封装 。 


3.2.2 ”对 函数 的 封装 
MariaDB 对 系统 调用 以 及 一 些 C 的 库 函 数 进行 了 封装 。 大 部 分 的 封装 函数 都 是 以 my_ 开 头 的 ， 
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例如 my_malloc、my_ifealloc 和 my_free 是 对 C 的 库 函 数 malloc、irealloc 和 free 的 封装 ，my_open 和 
my_close 是 对 系统 调用 open 和 close 的 封装 。 


MariaDB 对 函数 进行 封装 的 目的 主要 有 以 下 几 个 。 


口 跨 平台 。 在 不 同 的 操作 系统 上 ， 同 样 功 能 的 王 数 可 能 名 称 并 不 相同 ， 甚 至 在 某 些 操作 系 
统 上 没有 相对 应 的 函数 ， 为 了 使 代码 在 不 同 的 操作 系统 上 都 能 够 正常 运行 ， 需 要 对 这 些 
男 数 进行 封装 。 

O 执行 额外 的 操作 。 例 如 ，MariaDB 对 C 的 库 函 数 malloc 进 行 了 封装 ， 而 my_malloc 消 数 比 
malloc 子 数 多 了 一 个 my_flags 参 数 , 通过 该 参数 可 以 指定 分 配 内 存 失败 时 的 额外 行为 , 例 
如 打印 出 现 错误 信息 : 


void *malloc(size_t size); 
void *my malloc(size t size, myf my flags); 

O 更 好 的 抽象 。 想 象 一 下 这 种 情况 ， 如 果 我 们 在 程序 中 直接 使 用 系统 提供 的 函数 ， 在 程序 
的 各 个 地 方 充 斥 着 这 些 函 数 调用 , 当 某 一 天 发 现 有 男 一 个 函数 B 具 有 和 函数 A 相同 的 功能 ， 
而 且 性 能 更 好 ， 这 个 时 候 如 果 想 要 使 用 函数 B 来 代 蔡 函 数 A， 就 需要 将 所 有 出 现 函 数 A 的 
地 方 用 函数 B 来 取代 。 但 是 如 果 根 据 函 数 的 功能 进行 了 抽象 ， 然 后 进行 相应 的 封装 ,这样 
我 们 的 程序 仅仅 和 抽象 的 概念 相关 ， 而 没有 和 具体 的 实现 或 者 某 个 函数 相 耦 合 。 


3.3 调试 MariaDB 


MariaDB/MySQL 的 源 代码 非常 多 ， 以 至 于 许多 读者 不 知道 该 从 哪里 开始 阅读 。 一 种 很 好 的 
方式 就 是 对 MariaDB 进 行 调试 ， 跟 踪 MariaDB 的 启动 过 程 以 及 命令 的 执行 过 程 ， 顺 着 程序 的 执行 
流 来 阅读 MariaDB 的 源 代 码 。 


3.3.1 准备 工作 

在 对 MariaDB 进 行 调试 之 前 ， 我 们 需要 做 一 些 准 备 工 作 ， 例 如 ，MariaDB 必 须 编 译 成 Debug 
版 本 ， 我 们 必须 熟悉 GDB 的 常用 命令 ， 等 等 。 

1. 编译 MariaDB 的 Debug 版 本 

在 获取 MariaDB 的 源 代码 之 后 ， 我 们 需要 对 其 进行 编译 安装 ， 然 后 才能 运行 。 如 果 想 要 对 其 
进行 调试 ， 就 需要 把 MariaDB 编 译 成 Debug 版 本 ， 这 需要 在 执行 cmake 命 令 进 行 编 译 时 携带 
DWITH DEBUG 参 数 : 


root# cmake . -DWITH DEBUG ... 
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2. GDB 的 使 用 技巧 

工 欲 善 其 事 ， 必 先 利 其 需 ， 好 的 工具 总 是 能 使 我 们 的 工作 达到 事半功倍 的 效果 。 

GDB (GNU Project Debuger ) 是 GNU 开 源 组 织 发 布 的 一 个 强大 的 UNIX 下 的 程序 调试 工具 ， 
使 用 它 能 够 清楚 地 了 解 到 其 他 程序 正在 做 什么 事情 。 通常 , 我 们 主要 使 用 GDB 来 跟踪 程序 的 执行 
过 程 ， 观 察 程 序 中 相关 变量 的 值 ， 定 位 程序 中 存在 的 问题 ， 或 者 使 用 GDB 来 调试 coredump 文 件 ， 
定位 导致 程序 崩溃 的 原因 。 


接 下 来 我 们 介绍 GDB 的 一 些 使 用 技巧 。 下 面 给 出 了 gdb --help 命 令 输 出 提示 信息 ， 其 中 列 出 
了 GDB 的 使 用 方法 和 各 个 选项 的 含义 : 


jinpengzhang@jinpengzhang:~$ gdb --help 
This is the GNU debugger. Usage: 


gdb [options] [executable-file [core-file or process-id]] 


gdb [options] --args executable-file [inferior-arguments ...] 
Options: 
--args Arguments after executable-file are passed to inferior. 
-b BAUDRATE Set serial port baud rate used for remote debugging. 
--batch Exit after processing options. 


--batch-silent As for --batch, but suppress all gdb stdout output. 
--return-child-result 

GDB exit code will be the child's exit code. 
--cd=DIR Change current directory to DIR. 
--command=FILE, -x Execute GDB commands from FILE. 
--eval-command=COMMAND, -ex 

Execute a single GDB command. 

May be used multiple times and in conjunction 

with --command. 
--core=COREFILE Analyze the core dump COREFILE. 


--pid=PID Attach to running process PID. 

--dbx DBX compatibility mode. 

--directory=DIR Search for source files in DIR. 

--epoch Output information used by epoch emacs-GDB interface. 
--exec=EXECFILE Use EXECFILE as the executable. 

-- fullname Output information used by emacs-GDB interface. 
--help Print this message. 


--interpreter=INTERP 
Select a specific interpreter / user interface. 


-1 TIMEOUT Set timeout in seconds for remote debugging. 
--nw Do not use a window interface. 

--nx Do not read gdbinit file. 

--quiet Do not print version number on startup. 


--readnow Fully read symbol files on first access. 
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--Se=FILE 


--Symbols=SYMFILE 


--tty=TT 
--tui 
--version 
-wW 
--write 
--xdb 


At startup, GDB reads 
* system-wide init 


For more information, 
GDB manual (available 
Report bugs to "<http: 


Use FILE as symbol file and executable file. 

Read symbols from SYMFILE. 

Use TTY for input/output by the program being debugged. 
Use a terminal user interface. 

Print version information and then exit. 

Use a window interface. 

Set writing into executable and core files. 

XDB compatibility mode. 


the following init files and executes their commands: 
file: /etc/gdb/gdbinit 


type "help" from within GDB, or consult the 
as on-line info or a printed manual). 
//bugs.launchpad.net/gdb-linaro/>". 


使 用 GDB 的 方式 比较 多 ， 主 要 有 以 下 3 种 。 
口 使 用 GDB 调 试 正在 运行 的 程序 : 


gdb -p pid 


mi 


O 使 用 GDB 启 动 程 


序 进行 调试 : 


gdb executable-file 


口 使 用 GDB 调 试 coredump 文 件 : 


gdb -c coredumpfile 


当 通 过 以 上 方式 进入 GDB 命 令 行 之 后 ， 就 可 以 执行 GDB 命 令 来 跟踪 程序 。 表 3-2 给 出 了 常用 
的 几 个 GDB 命 令 及 其 作用 。 


表 3-2 ”GDB 常 用 命令 


命 令 4 5 A 
breakpoint b 设置 断 点 。 可 以 通过 指定 函数 名 称 或 者 哪个 文件 的 行 数 来 指定 断 点 的 位 置 
continue č 继续 执行 到 下 一 个 断 点 或 者 直到 程序 结束 
next n 执行 下 一 步 ， 不 进入 子 国 数 
step s 执行 下 一 步 ， 进 入 子 函数 
backtrace bt 打印 当前 的 堆栈 信息 
info breakpoint info b 查看 所 有 断 点 信息 
print p 打印 变量 的 值 
info threads ith 列 出 所 有 正在 运行 的 线程 的 信息 
thread thr 切换 到 指定 的 线程 
layout src / 在 控制 台 划 出 一 个 区 域 展示 源 代码 ， 该 命令 在 调试 过 程 中 阅读 源 代码 非常 有 用 
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3.3.2 mysqld 关 键 的 函数 调用 


mysqld 是 MariaDB/MySQL 的 服务 端 程序 ， 如 果 mysqld 处 于 运行 状态 ， 那么 用 户 就 可 以 使 用 
客户 端 连 接 并 进行 操作 。 

mysqld 启 动 之 后 ,首先 进行 必要 的 初始 化 工作 ， 例 如 解析 配置 文件 、 初 始 化 日 志 、 加 载 必要 
的 插件 、 启 动 slave 线 程 〈 如 果 当 前 库 是 从 库 )， 等 等 ， 然 后 等 待 客户 端的 连接 。 


图 3-2 给 出 了 mysqld 在 处 理 客户 端 连 接 时 的 相关 函数 调用 。 在 调试 MariaDB 的 过 程 中 , 我 们 可 
以 选择 性 地 在 这 些 地 方 设 置 断 点 ， 以 便 跟 踪 命令 的 执行 过 程 。 sae 


mysqld_main 


handle_connections_sockets 


create_new_thread 


do_handle_one_connection 
dispatch_command 


图 3-2 ” mysqld 函数 调用 
下 面 我 们 介绍 一 下 这 些 函 数 的 定义 以 及 主要 作用 。 


1. mysdld_main 


该 函数 是 mysqld 启 动 的 入口 函数 ， 所 有 的 工作 都 从 这 里 开始 , 包括 配置 文件 的 读 取 、 命 令 行 
的 解析 、 加 载 必要 的 插件 ， 等 等 ， 其 声明 如 下 : 


// sql/mysqld.ce 
int mysqld main(int argc, char **argv); 


2. handle_connections_ sockets 


该 函数 在 mysqld_main 函 数 完成 所 有 的 初始 化 工作 之 后 被 调用 ， 主 要 用 来 处 理 来 自 客户 端的 
连接 。 如 果 采 用 的 是 每 连接 每 线程 的 模式 ,那么 当 新 的 客户 端 连接 到 达 时 ,该 函数 会 为 该 连接 创 
建 一 个 单独 的 线程 。 该 函数 的 声明 如 下 : 


// sql/mysqld.ce 


void handle connections sockets(); 
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3. create_new_thread 


该 函数 的 主要 功能 是 调用 系统 相关 的 线程 函数 创建 新 的 线程 来 处 理 新 来 的 客户 端 连接 , 并 且 
增加 连接 的 计数 ， 其 声明 如 下 : 


// sqlmysqld.cc 
void create new thread(THD *thd) 


4. do_handle_one_connection 


在 每 连接 每 线程 模式 下 ， 会 创建 单独 的 线程 来 处 理 新 来 的 连接 ， 新 创建 的 线程 会 进入 do_ 
handle_one connection ek ALT o 该 函数 的 声明 如 下 : 


// sql/connect.ce 
void do handle one connection(THD *thd); 
5. do_command 


该 函数 从 客户 端 连接 中 读 取 一 条 命令 , 然后 调用 dispach_command 函 数 执行 该 命令 。 该 函数 的 
声明 如 下 : 


// sql/sql_parse.cc 
bool do_command(THD *thd); 

6. dispatch_command 

该 函数 用 于 执行 从 客户 端 读 取 的 命令 ， 其 声明 如 下 : 
// sql/sql_parse.cc 


bool dispatch command(enum enum server command command, THD *thd,char *packet, uint packet length); 


其 中 参数 command 为 命令 的 类 型 , 参数 thd 为 当前 连接 的 上 下 文 信息 , 参数 packet 和 packet_ length 
指定 了 读 取 命令 的 详细 信息 。 


3.3.3 ”调试 

做 好 以 上 的 准备 工作 后 ， 接 下 来 就 可 以 对 MariaDB/MySQL 服 务 端 程序 进行 调试 ， 具 体 步 又 
如 下 。 

(1) MariaDB 必 须 编 译 成 Debug 版 本 ， 前 面 我 们 已 经 进行 了 相关 的 介绍 

(2) 启动 MariaDB， 使 用 客户 端 连接 上 来 。 

(3) 使 用 GDB 调 试 mysqld 进 程 ， 具 体 步 又 如 下 。 
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(a) 首先 通过 ps 命令 查看 mysqld 的 进程 号 ， 如 图 3-3 所 示 。 


root# ps -ef | grep mysqld 


root@jinpengzhang: /usr/local/mariadb10/bin# ps -ef | grep mysqld 
root 22189 22019 © 16:20 pts/6 00:00:00 /bin/sh ./ _safe --defaults 


file=/etc/mariadb_my.cnf 
mysql EGE) 22189 1 16:20 pts/6 00:00:00 /usr/local/mariadb10/bin/ 


--defaults-file=/etc/mariadb_my.cnf --basedir=/usr/local/mariadb10 --datadir=/us 

rr /local/mariadb10/data --plugin-dir=/usr/local/mariadb10/lib/plugin --user=mysql 
--log-error=/usr/local/mariadb10/data/jinpengzhang.err --pid-file=jinpengzhang. 
id --port=3308 


图 3-3 ”查看 mysqld 的 进程 号 
从 图 3-3 中 我 们 知道 mysqld 的 进程 号 为 22403 , 然后 使 用 gdb 命 令 进 入 mysqld 程 序 ( 注意 ， 
必须 具有 root 权限 ): 


root# gdb -p 22403 


(c) 设置 相应 的 断 点 。 如 图 3-4 所 示 ， 我 们 在 dispatch_command 函 数 处 设置 了 相应 的 断 点 ， 
这 是 命令 执行 的 人 口 函 数 。 


gdb) b dispatch_command 
Breakpoint 1 at 0x6311ad: file /home/jinpengzhang/jinpeng/mariadb-10.0.6/sql/sql 


, line 1094. 


图 3-4 ”设置 断 点 


(d) 通过 已 连接 的 客户 端 向 MariaDB 发 送 命 令 。 如 图 3-5 所 示 ， 我 们 发 现 客户 端 卡 在 这 里 ， 
因为 mysqld 已 经 命中 了 我 们 设置 的 断 点 。 


"BeiJing", 1); 


ariaDB [test]> insert into tb values(2008, 


图 3-5 ”客户 端 发 送 命令 


(e) 在 GDB 中 使 用 layout src 命 令 划 分 一 个 窗口 展示 代码 ， 我 们 可 以 直接 在 这 个 窗口 中 阅 
读 相 关 的 代码 。 接 下 来 使 用 next 命 令 单 步 执行 ， 如 果 想 看 某 个 函数 的 具体 实现 ， 可 以 
使 用 step 命 令 进 入 该 函数 ， 如 图 3-6 所 示 。 


1 request of thread shutdown, i. e. if command is 
COM_QUIT/COM_SHUTDOWN 


ed J 
bool dispatch_command(enum enum_server_command command, THD *thd, 
char* packet, uint packet_length) 


NET *net= &thd->net; 

bool error= 0; 
DBUG_ENTER("dispatch_command"); 
DBUG_PRINT("info", ("command: %d", command)); 


#if defined(ENABLED_PROFILING) 
thd->profiling.start_new_query(); 


nulti-thre Thread 0x7f436 In: dispatch command Line: 1094 PC: 


图 3-6 单 步调 试 
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3.4 小 结 
本 章 中 ,我 们 首先 介绍 了 MariaDB 源 代码 的 目录 结构 ， 让 读者 对 MariaDB 的 源 代码 有 一 个 


宏观 的 认识 ， 


技巧 。 


然后 介绍 了 MariaDB 对 类 


型 以 及 函数 的 封装 情况 ， 最 后 介绍 了 调试 MariaDB 的 一 些 


第 4 章 


MariaDB 基 础 数据 结构 


本 章 中 我 们 将 对 MariaDB 中 经 常 使 用 的 几 个 底层 数据 结构 进行 分 析 , 这 些 数据 结构 的 存在 是 
为 了 解决 不 同 的 问题 。 例 如 ，MEM_ROOT 的 主要 目的 是 为 了 加 快 动态 内 存 的 分 配 速 度 以 及 减少 程序 
中 内 存 碎片 的 发 生 ; I0_CACHE 作 为 文件 读 写 的 缓存 ， 目 的 是 为 了 提高 文件 读 写 的 效率 ; NET 封 装 
了 所 有 底层 的 网 络 操作 ， 使 上 层 网 络 相 关 的 代码 简单 易 懂 ， 具 有 较 高 的 移植 性 ; THD 包 含 了 线程 
的 所 有 上 下 文 信息 ，MariaDB 中 很 多 函数 的 第 一 个 参数 都 是 THD 类 型 的 ; 一 个 TABLE_SHARE 实 例 对 
应 于 数据 库 中 的 一 个 表 ，TABLE_SHARE 保 存 了 表 的 一 些 基本 信息 ， 例 如 字段 名 称 、 字 段 类 型 等 ; 
当 我 们 执行 查询 语句 的 时 候 ， 需 要 打开 语句 中 指定 的 表 ， 这 时 就 会 创建 一 个 TABLE 对 象 来 对 应 打 
开 的 表 。 这 些 基 础 的 数据 结构 频繁 地 出 现在 MariaDB 的 很 多 地 方 ， 接 下 来 我 们 对 它们 进行 详细 的 
分 析 ， 帮 助 想 要 了 解 MariaDB 底 层 机 制 和 想 自行 阅读 MariaDB 源 代码 的 读者 打下 良好 的 基础 。 


本 音 的 内 容 主 要 包括 : 


口 内 存 池 MEM_ROOT 

O 文件 缓存 I0_CACHE 
口 NET 结 构 

口 线程 上 下 文 一 一 THD 
口 TABLE_SHARE 

口 TABLE 


4.1 内 存 池 MEM_ROOT 


在 C/C++ 中 ， 当 我 们 的 程序 需要 动态 分 配 内 存 的 时 候 ， 就 会 调用 malloc 函 数 向 内 存 分 配 融 请 
求 所 需 的 内 存 ， 在 结束 内 存 的 使 用 之 后 调用 free 函 数 将 内 存 归 还 给 内 存 分 配器 。 


MariaDB 采 用 MEM ROOT 内 存 池 来 管理 动态 内 存 的 分 配 。MEM_ ROOT 向 内 存 分 配器 请 求 大 块 连续 的 
内 存 ， 程 序 向 MEM_R00T 请 求 所 需 的 动态 内 存 。 这 种 方式 的 内 存 分 配 策略 一 方面 减少 了 分 配 内 存 
时 malloc 的 调用 次 数 ， 提 高 了 内 存 分 配 的 速度 ， 另 一 方面 在 一 定 程度 上 减少 了 程序 中 内 存 碎 片 的 
发 生 。 
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4.1.1 内 存 碎 片 问题 


内 存 碎 片 一 直 是 内 存 管理 过 程 中 一 个 棘手 的 问题 ， 它 不 能 完全 避免 ,只 能 通过 一 些 策略 来 减 
少 发 生 ， 例 如 Linux 内 核 使 用 伙伴 系统 和 slab 对 象 缓存 来 减少 内 存 碎 片 的 发 生 。 


当 程 序 需要 内 存 的 时 候 会 向 内 存 管理 器 提出 内 存 申请 , 程序 使 用 完 内 存 后 会 将 其 归还 给 内 存 
管理 需 , 以 供 后 续 使 用 。 程序 每 次 请 求 的 内 存 块 的 大 小 以 及 什么 时 候 释 放 所 请 求 的 内 存 都 各 不 相 
同 , 在 程序 的 生命 周期 内 ,会 有 多 次 请 求 和 释放 内 存 , 空闲 内 存 开始 是 大 块 连续 的 ， 随 着 程序 的 
运行 以 及 内 存 的 分 配 与 释放 , 大 块 连续 的 空闲 内 存 被 分 割 成 不 连续 的 小 块 的 空闲 内 存 ， 当 程序 再 
次 请 求 分 配 大 块 连续 的 内 存 时 , 虽然 此 时 空 闪 内存 的 总 量 大 于 所 请 求 的 内 存 大 小 , 但 是 由 于 没有 
连续 大 块 的 内 存 存在 ， 导 致 请 求 得 不 到 满足 ,这 就 是 内 存 碎片 问题 。 内 存 碎片 通常 分 为 内 部 碎片 
和 外 部 碎片 两 种 。 


1. 内 部 碎片 


内 部 碎片 是 指 已 经 被 分 配 的 却 不 能 被 利用 的 内 存 空间 。 通 常 内 存 分 配器 实际 分 配给 程序 的 内 
存 经 常 比 所 请 求 的 更 大 。 内 存 分 配器 分 配给 程序 的 内 存 通常 是 4、8 或 者 16 的 倍数 。 例 如 ， 在 64 
位 操作 系统 上 的 glibc 内 存 分 配器 会 对 程序 请 求 的 内 存 按照 16 进 行 对 齐 ， 当 程序 请 求 23 字 节 的 时 
候 ， 经 过 对 齐 操作 之 后 ， 实 际 分 配给 该 程序 的 是 32 字 节 ， 这 种 情况 发 生 时 多 分 配 的 9 字 节 将 会 被 
浪费 。 同 时 为 了 在 调用 free 函 数 释 放 已 分 配 的 内 存 块 时 能 够 进行 正确 的 操作 , 内存 分 配器 还 会 分 
配额 外 的 空间 记录 内 存 块 的 大 小 。 


当 程 序 内 部 包含 很 多 被 分 配 了 但 是 没有 使 用 的 内 存 时 ,下 一 次 请 求 一 大 块 连续 的 内 存 可 能 会 
失败 ,而 实际 上 , 程序 内 部 未 使 用 的 这 些 碎片 内 存 的 大 小 总 和 可 能 比 所 请 求 的 内 存 更 大 , 这 种 情 
况 叫 作 内 部 碎片 。 


2. 外 部 碎片 


外 部 碎片 是 指 还 没有 被 分 配 出 去 的 , 但 由 于 太 小 而 无 法 满足 程序 的 大 块 连续 内 存 申 请 的 空闲 
内 存 。 当 大 块 连 续 的 空闲 内 存 被 已 经 分 配 了 的 内 存 块 切 分 成 小 块 不 连续 的 内 存 时 ,虽然 还 有 很 多 
空闲 的 内 存 ， 但 满足 不 了 程序 大 块 连续 的 内 存 请 求 。 例 如 ， 某 个 程序 请 求 了 3 个 连续 的 内 存 块 A、 
B 和 C， 当 程序 将 B 块 内 存 释 放 后 ， 内 存 B 可 以 用 来 满足 小 于 等 于 B 块 大 小 的 内 存 请 求 ， 却 不 能 满 
足 大 于 B 块 大 小 的 内 存 请 求 。 外 部 碎片 同样 存在 于 文件 系统 中 ， 例 如 随 着 文件 的 创建 、 修 改 以 及 
删除 ， 磁 盘 中 间 会 出 现 很 多 未 被 利用 的 碎片 。 


3. 伙伴 系统 


在 C/C++ 程序 中 调用 malloc 函 数 申请 内 存 时 ,分配 的 仅仅 是 虚拟 地 址 ， 这 个 时 候 并 没有 分 配 
对 应 的 物理 页 框 , 只 有 当 我 们 操作 已 分 配 的 内 存 时 触发 缺 页 中 断 , 内 核 才 会 分 配 相应 的 物理 页 框 。 
Linux 内 核 在 管理 物理 内 存 页 框 的 时 候 ， 也 会 遇 到 我 们 上 面 提 到 的 外 部 碎片 问题 ， 频 繁 地 请 求 和 
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释放 不 同 大 小 的 一 组 连续 的 物理 页 框 , 会 导致 本 来 连续 的 大 块 空闲 页 框 被 分 割 为 不 连续 的 小 块 空 
闲 页 框 ， 由 此 导致 即使 有 很 多 空闲 的 物理 页 框 ， 但 是 满足 不 了 一 个 大 块 的 连续 页 框 的 请 求 。 


Linux 内 核 通 过 伙伴 系统 (buddy system ) 算法 解决 这 种 外 部 碎片 问题 。 内 核 将 所 有 空闲 的 连 
续 页 框 分 为 11 个 组 , 每 个 组 对 应 一 个 空闲 块 链 表 , 链表 中 的 空闲 块 分 别 包含 1、2、4、8、16、32、 
64、128、256、512 、1024 个 连续 的 物理 页 框 ， 每 个 空闲 块 的 第 一 个 页 框 的 物理 地 址 是 该 块 大 小 
的 整数 倍 ,例如 大 小 为 32 个 连续 页 框 的 空闲 块 的 起 始 地 址 是 32*22 的 倍数 ( 页 的 大 小 为 4KB ), 假 
设 请 求 一 个 包含 256 个 连续 页 框 的 空闲 块 , 算法 会 先 在 256 对 应 的 链表 中 查找 , 看 看 是 否 存在 这 样 
的 空闲 块 ， 如 果 有 则 直接 从 该 链表 中 分 配 ， 如 果 没 有 , 那么 会 向 更 大 一 级 别 的 链表 中 查找 ， 也 就 
是 512 对 应 的 链表 找 一 个 空闲 的 块 ,将 其 分 割 为 两 半 ,， 一 半 用 于 满足 请 求 ， 另 一 半 包 含 256 个 连续 
页 框 的 块 被 加 入 256 对 应 的 空闲 链表 中 。 如 果 在 512 对 应 的 链表 中 也 没有 找到 空闲 的 内 存 块 , 那么 
继续 找 更 大 的 块 ， 也 就 是 包含 1024 个 连续 页 框 的 块 ， 如 果 这 样 的 块 存 在 ， 内 核 把 其 中 的 256 个 连 
续 的 页 框 用 于 满足 申请 , 剩余 的 768 个 连续 的 页 框 被 分 割 为 两 块 , 一 个 包含 256 个 连续 页 框 的 块 和 
一 个 包含 $12 个 连续 页 框 的 块 ， 这 两 个 空闲 块 分 别 被 加 入 到 256 和 512 对 应 的 空闲 链表 中 ， 如 图 4-1 
所 示 。 


1024 


1024 
512 
256 
分 配 出 去 的 256 个 连续 的 页 民 


图 4-1 伙伴 系统 分 配 物 理 页 框 


页 框 的 释放 过 程 并 非 简单 地 将 块 加 入 对 应 的 空闲 链表 中 ， 内 核 试 图 把 大 小 同样 为 b 的 空闲 伙 
伴 块 进行 合并 。 所 谓 伙伴 块 ， 是 指 具 有 大 小 一 致 〈 同 为 b )， 并 且 它 们 的 物理 地 址 是 连续 的 ， 同 时 
第 一 个 块 的 第 一 个 页 框 的 物理 地 址 必须 为 2*b*2” 的 倍数 。 该 算法 的 合并 过 程 是 迭代 的 , 当 合并 为 
大 小 为 2 的 空闲 块 之 后 , 会 试 着 寻找 大 小 为 2b 的 块 的 空闲 伙伴 块 进行 合并 , 以便 形成 更 大 的 空闲 
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块 ， 直 到 不 能 进行 合并 时 ， 将 合并 完 的 块 加 入 到 对 应 的 空闲 链表 中 ， 如 图 4-2 所 示 。 
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512 
256 
~ 释放 的 256 个 连续 的 页 杠 
p 合并 大 小 为 256 个 连续 页 框 的 空闲 伙伴 块 
1024 
512 
256 
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图 4-2 ”伙伴 系统 合并 空闲 伙伴 块 


伙伴 系统 算法 不 仅 存 在 Linux 内 核 中 ，glibc 的 内 存 管 理 器 (ptmalloc ) 同样 采用 了 伙伴 系统 算 
法 来 管理 空闲 的 内 存 。 


4.1.2 MEM ROOT 的 定义 


通过 上 面 的 介绍 , 我 们 知道 伙伴 系统 能 够 很 好 地 解决 外 部 碎片 问题 ， 而 在 进程 内 通常 都 是 内 
部 碎片 问题 ， 为 了 避免 内 部 碎片 的 产生 ,一 个 很 好 的 策略 就 是 总 是 向 内 存 管 理 器 请 求 4、8 或 者 16 
倍数 大 小 的 大 块 内存 , 减少 非 对 齐 小 块 内 存 的 申请 。MEM_R00T 就 采用 了 这 样 的 思路 对 内 存 进行 管 
理 ，MEM_R00T 向 内 存 分 配器 申请 大 块 对 齐 的 内 存 ， 应 用 程序 向 MEM_RO0T 申 请 小 块 的 内 存 。 


图 4-3 给 出 了 MEM_ROOT 的 结构 。USED_MEM 结 构 代 表 从 内 存 分 配器 分 配 的 一 个 内 存 块 , 其 中 包括 
了 该 内 存 块 的 大 小 信息 以 及 该 内 存 块 的 使 用 情况 。MEM R00T 管 理 所 有 已 分 配 的 内 存 块 ，free 链 表 
中 包含 了 有 足够 大 的 剩余 空间 能 够 继续 满足 内 存 分 配 请 求 的 内 存 块 , used 链 表 中 包含 了 具有 很 小 
的 剩余 空间 甚至 全 部 用 满 的 内 存 块 。 
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struct MEM_ROOT struct USED_MEM Fa 
~ 
struct USED MEM left 
pre_alloc 
next | left | size | used unused 
struct USED MEM 
next | left | size | used unused 
图 4-3 MEM ROOT2# #4) I 
下 面 我 们 给 出 USED_MEM 和 MEM_ROOT 的 定义 : 
// include/my alloc.h 
typedef struct st used mem 
{ 
struct st used mem *next; // 下 一 个 块 
unsigned int left; // 当前 块 中 剩余 的 字 节 数 
unsigned int size; // 当前 块 的 大 小 
} USED MEM; 
typedef struct st mem root 
{ 
USED MEM *free; // 空闲 内 存 块 链表 
USED MEM *used; // 已 用 内 存 块 链表 
USED MEM *pre_ alloc; // 初始 化 时 预 分 配 的 内 存 块 
size t min malloc; // 当空 闲 块 的 可 用 内 存 低 于 该 值 时 将 其 移动 到 已 用 内 存 块 链表 中 
size t block_size; // 分 配 块 的 大 小 
unsigned int block_num; // 用 于 计算 新 分 配 块 的 大 小 
unsigned int first_block_usage; 
void (*error_handler) (void); // RRA 
} MEM_ROOT; 


USED_MEM 中 各 个 成 员 的 含义 如 下 。 


口 next: 指向 下 一 个 内 存 块 ， 用 于 实现 链表 。 
口 left: 当前 内 存 块 还 剩 下 多 少 字 节 可 以 使 用 ， 对 应 于 图 4-3 中 unused 指 示 的 区 域 。 
O size: 当前 内 存 块 的 大 小 ， 包 括 USED_MEM 结 构 的 大 小 ， 如 图 4-3 所 示 。 


MEM_ROOT 中 各 个 成 员 的 含义 如 下 。 
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O free: 空闲 内 存 块 链表 。 空闲 内 存 块 链表 中 的 内 存 块 不 是 没有 被 使 用 , 而 是 这 些 块 剩余 的 

可 用 内 存 比较 多 ， 能 够 继续 满足 后 续 的 内 存 申 请 。 

O used: 已 用 内 存 块 链表 。 当 内 存 块 中 剩余 的 字 节 数 小 于 其 个 阔 值 时 , 会 被 移动 到 该 链表 中 ， 
虽然 这 样 的 策略 可 能 会 造成 一 定 的 浪费 ， 但 是 能 够 快速 地 满足 内 存 分 配 请 求 ， 因 为 该 内 
存 块 剩余 的 空闲 内 存 只 能 满足 小 于 等 于 阔 值 的 内 存 请 求 ， 如 果 仍 然 将 它 留 在 空闲 内 存 块 
链表 中 ， 当 这 样 的 内 存 块 在 空闲 块 链表 中 积累 时 ， 势 必 会 降低 大 于 阔 值 的 内 存 请 求 的 效 
率 。 我 们 在 分 析 MEM_R0O0T 内 存 分 配 的 时 候 会 进一步 讲解 。 

O pre_alloc: 初始 化 时 预 分 配 的 内 存 块 。 

O min_malloc: 当空 闲 链表 中 某 个 内 存 块 的 可 用 内 存 低 于 min_malloc 指 定 的 字 节 数 时 ， 这 个 

内 存 块 会 被 移动 到 已 用 内 存 块 链表 。 

口 block_size: 新 分 配 的 内 存 块 大 小 是 block_size 的 整数 倍 。 

口 block_num: 当 需 要 分 配 新 的 内 存 块 时 ， 用 于 计算 新 分 配 内 存 块 的 大 小 。 

口 first_block_usage: 计数 器 。 当 空闲 链表 中 的 第 一 个 内 存 块 多 次 不 能 满足 内 存 申 请 时 ， 

出 于 效率 的 考虑 ， 会 将 其 加 入 到 已 用 内 存 块 链表 中 。 

O err_handler: 错误 处 理 函 数 。 


4.1.3 MEM ROOT 的 使 用 


上 面 给 出 了 MEM_ROOT 的 相关 定义 ,下 面 我 们 给 出 几 个 使 用 MEM_ROOT 的 例子 来 加 深 对 它 的 理解 。 
MEM_ROOT 的 使 用 非常 简单 ， 首 先 对 其 结构 进行 初始 化 ， 然 后 就 可 以 使 用 alloc_root 也 数 向 它 请 求 
内 存 ， 最 后 需要 调用 free_root 函 数 释放 所 有 的 内 存 块 。 如 果 以 MY_MARK_BLOCKS_FREE 标 志 调 用 
free_root 消 数 ， 表 示 仅 仅 将 MEM_ROOT 中 的 内 存 块 标记 为 空 闪 状态 ， 并 不 将 其 返回 给 内 存 分 配 带 ， 
这 样 这 些 内 存 块 就 能 重复 使 用 。 示 例 代码 如 下 : 


MEM ROOT mem root; 
init alloc root(&mem root, 4096, 0); // 初始 化 MEM_ROOT 


char *p1 = (char*)alloc_root(&mem root, 128); // 分 配 内 存 


char *p2 = (char*)alloc_root(&mem root, 64); 


free_root(&mem root, 0); // 释放 内 存 


MEM_ROOT mem_root; 
init_alloc_root(&mem root, 4096, 4096); // 初始 化 MEM_ROOT， 预 先 分 配 一 个 内 存 块 


char *p1 = (char*)alloc_root(&mem root, 128); // 分 配 内 存 
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char *p2 = (char*)alloc_root(&mem root, 64); 


free _root(&mem_root, MY MARK BLOCKS FREE); // 释放 内 存 ， 仅 仅 将 所 有 已 分 配 的 内 存 块 标记 为 空闲 


4.1.4 MEM ROOT 的 初始 化 


从 上 面 的 例子 中 可 以 看 出 ,MEM_ROOT 不 能 直接 使 用 ,必须 先 调用 init_alloc_root 进 行 相应 的 
初始 化 。 下 面 给 出 了 init alloc_ root 函数 的 源 代 码 : 


// mysys/my_alloc.c 


1. void init alloc root(MEM ROOT *mem root, size_t block size, size t pre alloc size) 
2. { 

3 mem_root->free= mem_root->used= mem_root->pre_alloc= 0; 

4. mem_root->min_malloc= 32; 
5 

6 

7 

8 


mem_root->block_size= block_size; 
mem_root->error_handler= 0; 
mem_root->block_num= 4; 
mem_root->first_block_usage= 0; 


9. if (pre alloc size) 
10. { 
11. if ((mem_root->free= mem_root->pre_alloc= 


(USED MEM*)my malloc(pre alloc size + 
ALIGN SIZE(sizeof(USED MEM)), MYF(0)))) 


12. { 
13. mem_root->free->size= 
pre alloc size + ALIGN SIZE(sizeof(USED MEM)); 
14. mem_root->free->left= pre_alloc_size; 
15. mem_root->free->next= 0; 
16. } 
17. } 


18. DBUG_VOID_ RETURN; 
19.} 


20. #define MY_ALIGN(A,L)  (((A) + (L) - 1) & ~((L) - 1)) 

21. #define ALIGN SIZE(A) MY_ALIGN((A),sizeof (double) ) 

先 来 看 下 init mem root 函数 的 参数 ，mem root 指 向 需要 进行 初始 化 的 MEM_ROOT 结 构 。 
block size 是 新 分 配 内 存 块 大 小 的 基数 。MariaDB 在 使 用 MEM_R00T 的 过 程 中 ,根据 不 同 的 应 用 场景 
设置 的 block_size 的 大 小 也 不 同 ， 从 512 到 4096、8192、16384， 等 等 。 参 数 pre_alloc_size 如 果 不 
为 0， 那 么 在 初始 化 的 过 程 中 会 预 分 配 一 块 内 存 块 放 人 空闲 块 链表 中 用 于 后 续 程 序 的 内 存 申请 。 


在 init_mem root 函数 的 后 面 ， 我 们 给 出 ALIGN_SIZE 宏 的 定义 ， 该 宏 的 作用 是 进行 内 存 对 齐 。 
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第 3 行 到 第 8 行 代码 用 于 初始 化 MEM_ROOT 的 成 员 。 我 们 看 到 min_malloc 的 值 为 32， 也 就 是 说 ， 
如 果 USED_MEM 内 存 块 的 空闲 内 存 小 于 32 字 节 ， 就 会 将 其 从 MEM_ROOT 的 free 链 表 移动 到 used 链 表 。 

在 第 9% 行 到 第 17 行 代码 中 ， 如 果 参 数 pre_alloc_size 不 为 0， 预 分 配 指定 大 小 的 内 存 块 用 于 后 
续 的 内 存 申请 。 


4.1.5 SHAE 


通常 ， 当 程序 需要 申请 内 存 的 时 候 ， 我 们 需要 调用 glibc 的 malloc 函 数 向 内 存 分 配器 申请 所 需 
的 内 存 。 如 果 使 用 MEM_ROOT 来 管理 内 存 的 话 ， 就 需要 调用 alloc_root 函数 向 指定 的 MEM_ROOT 申 请 
所 需 的 内 存 。 下 面 给 出 了 alloc_root 函 数 的 定义 : 


// mysys/my_alloc.c 


1. void *alloc_root(MEM_ROOT *mem_root, size_t length) 
2 4 

3 size_t get_size, block_size; 

4. uchar *point; 

5 register USED MEM *next= 0; 

6 register USED MEM **prev; 


7. length= ALIGN_SIZE(length); 
8. if ((*(prev= &mem_root->free)) != NULL) // 查找 空闲 块 
9. { 


// 如 果 空 亲 列 表 中 的 第 一 个 块 多 次 不 能 满足 内 存 分 配 请 求 ， 
// 将 其 移动 到 已 用 链表 
10. if ((*prev)->left < length && mem_root->first_block_usage++ 
>= ALLOC MAX BLOCK USAGE BEFORE DROP && 
(*prev)->left < ALLOC MAX BLOCK TO DROP) 


11. { 

12. next= *prev; 

13. *prev= next->next; 

14. next->next= mem_root->used; 

15. mem_root->used= next; 

16. mem_root->first_block_usage= 0; 

17. } 

18. for (next= *prev ; next && next->left < length ; next= next->next) 
19. prev= &next->next; 

20. } 

21. if (! next) // 如 果 没 有 足够 大 的 空闲 块 ， 则 分 配 新 的 块 

22 . { 

23. block_size= (mem_root->block_size & ~1) * (mem_root->block_num >> 2); 
24. get_size= length+ALIGN_SIZE(sizeof(USED_MEM)) ; 

25. get_size= MY MAX(get_size, block_size); 

26. if (!(next = (USED_MEM*) my_malloc(get_size, 


MYF(MY WME | ME_FATALERROR 
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MALLOC_FLAG(mem_root-> block _ size))))) 


27. { 
28. if (mem_root->error_handler) 
29. (*mem_root->error_handler)(); 
30. DBUG_RETURN((void*) 0); 
31. } 
32. mem_root->block_num++; 
33. next->next= *prev; 
34. next->size= get_size; 
35. next->left= get_size-ALIGN_SIZE(sizeof(USED MEM) ); 
36. *prev=next; 
37. } 
// 分 配 内 存 
38. point= (uchar*) ((char*) next+ (next->size-next->left)); 
39. if ((next->left-= length) < mem_root->min_malloc) 
40. { 。 // 如 果 内 存 的 剩余 字 节 低 于 指定 的 最 低 值 ， 将 其 移入 到 used 链 表 中 
41. *prev= next->next; 
42. next->next= mem_root->used; 
43. mem_root->used= next; 
44. mem_root->first_block_usage= 0; 
45. } 
46. DBUG_RETURN((void*) point); 
47.} 


在 第 $ 行 和 第 6 行 代码 中 ， 我 们 看 到 使 用 了 register 关 键 字 的 修饰 变量 next 和 prev。 通 常情 况 
下 ， 变 量 是 存储 在 内 存 中 的 ， 经 过 register 修 饰 的 变量 会 直接 存储 在 寄存 器 中 ， 对 它们 的 存 取 操 
作 不 会 经 过 内 存 ， 所 以 速度 很 快 ， 但 同时 ， 被 register 关 键 字 修 饰 的 变量 不 能 做 取 地 址 运算 。 
register 通 常 修饰 那些 被 频繁 使 用 的 变量 。 


第 7 行 代码 对 请 求 的 内 存 大 小 进行 对 齐 。 
第 8 行 到 第 20 行 代码 从 空闲 块 链表 中 寻找 能 够 满足 内 存 分 配 申 请 的 第 一 个 空闲 块 。 


在 第 10 行 到 第 17 行 代码 中 ， 如 果 空 闲 块 链表 中 的 第 一 个 空闲 块 多 次 没有 满足 内 存 分 配 申 请 ， 
说 明 其 剩余 的 内 存 不 足以 满足 目前 情况 下 的 内 存 申请 , 它 的 存在 会 影响 内 存 分 配 的 效率 , 所 以 将 
其 移动 到 used 链 表 中 。 

第 21 行 到 第 37 行 代码 的 主要 工作 是 当 MEM_RO0oT 中 没有 能 够 满足 当前 内 存 申请 的 空闲 块 时 ， 新 
分 配 一 个 内 存 块 。 第 23 行 代码 中 , 新 分 配 内 存 块 的 大 小 会 随 着 分 配 内 存 块 的 块 数 增加 而 呈 一 定 关 
系 的 增 大 ， 每 分 配 4 个 内 存 块 后 ， 接 下 来 新 分 配 内 存 块 的 大 小 在 原来 的 基础 上 增加 block_size 设 
定 的 大 小 。 


第 38 行 和 第 39 行 代码 用 于 进行 内 存 分 配 , 更 新 内 存 块 的 剩余 字 节 数 , 如 果 内 存 块 的 剩余 字 节 
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后 返回 分 配 的 内 存 给 应 用 程序 。 


从 alloc_root 函 数 的 实现 可 以 看 出 ，MEM ROOT 向 内 存 分 配器 申请 大 块 连续 的 内 存 ， 应 用 程序 
向 MEM_ROOT 申 请 小 块 的 内 存 ， 简 化 了 内 存 分 配器 的 管理 工作 ， 减 少 了 内 存 分 配 时 malloc 的 调用 次 
数 ， 同 时 也 减少 了 内 存 碎片 的 产生 。 


i=] 


HY 


41.6 ”内 存 回 收 
在 使 用 完 MEM_R00T 之 后 ， 需 要 调用 free_root 函 数 对 申请 的 内 存 块 进行 回收 ， 相 关 代 码 如 下 : 


// mysys/my_alloc.c 


1. 
2. 
3. 
4 


Oo ON mu 


static inline void mark blocks free(MEM ROOT *root) 


{ 


10. 


register USED MEM *next; 
register USED_MEM **last; 


// 将 空闲 块 链表 中 的 所 有 块 设置 成 未 使 用 
last= &root->free; 
for (next= root->free; next; next= *(last= &next->next)) 


{ 
next->left= next->size - ALIGN_SIZE(sizeof(USED_MEM)); 


} 


// 将 空闲 块 链表 和 已 用 块 链表 进行 合并 
*last= next=root->used; 


// 将 原 已 用 块 链表 中 的 所 有 内 存 块 设置 成 未 使 用 状态 


for (; next; next= next->next) 


{ 
next->left= next->size - ALIGN_SIZE(sizeof(USED_MEM)); 


} 


root->used= 0; 
root->first_block_usage= 0; 


.void free_root(MEM_ROOT *root, myf MyFlags) 


-{ 


register USED_MEM *next, *old; 


// 仅仅 将 所 有 内 存 块 标记 为 free， 并 不 归还 给 内 存 分 配器 
if (MyFlags & MY MARK BLOCKS FREE) 
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23. mark blocks free(root) ; 
24. DBUG_VOID_RETURN; 
25. } 


// MY _ KEEP_PREALLOC 标 志 表 示 保留 预 分 配 的 内 存 块 
26. if (!(MyFlags & MY_KEEP_PREALLOC)) 
27. root->pre_alloc=0; 


// 释放 已 使 用 链表 中 的 所 有 内 存 块 


28. for (next=root->used; next ;) 
29. { 

30. old=next; next= next->next ; 
31. if (old != root->pre_alloc) 
32. { 

33. old->left= old->size; 
34. my free(old); 

35. } 

36. } 


// 释放 空闲 链表 中 的 所 有 内 存 块 


37. for (next=root->free ; next ;) 
38. { 

39. old=next; next= next->next; 
40. if (old != root->pre_alloc) 
41. { 

42. old->left= old->size; 
43. my free(old); 

44. } 

45. } 

46. root->used=root->free=0; 


// 重 置 预 分 配 块 
47. if (root->pre_alloc) 


48. { 

49. root->free=root->pre_alloc; 

50. root->free->left=root->pre_alloc->size-ALIGN_SIZE(sizeof(USED_MEM)) ; 
51. root->free->next=0; 

52. } 


53. root->block_num= 4; 


54. root->first_block_usage= 0; 
55. DBUG_VOID_RETURN; 
56.} 


下 面 我 们 先 来 看 mark_blocks_free 消 数 ， 该 函数 的 主要 功能 是 将 MEM_R00T 中 的 所 有 内 存 块 设 
置 成 空闲 状态 。 


第 5 行 到 第 9 行 代码 用 于 将 free 链 表 中 的 所 有 内 存 块 设置 成 未 使 用 状态 。 
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第 10 行 代码 用 于 将 used 链 表 合 并 到 空闲 链表 中 。 
第 11 行 到 第 14 行 代码 用 于 将 原 used 链 表 中 的 所 有 内 存 块 设 置 成 未 使 用 状态 。 


接 下 来 我 们 分 析 free_root 函数 。 该 函数 有 两 个 参数 ， 第 一 个 参数 root 指 问 需 要 释放 的 
MEM_ROOT 结 构 ; 第 二 个 参数 MyFlags 是 标志 位 ， 可 以 控制 free_root 的 行为 。 如 果 MyFlags 携 带 了 
MY_MARK_BLOCKS_FREE 标 志 ， 表 明 仅 仅 将 MEM_RO0T 中 的 所 有 内 存 块 设置 成 空闲 状态 ， 而 不 归还 给 内 
存 分 配 占 ， 以 便 后 续 重 复 使 用 ; 如 果 MyFlags 携 带 了 MY_KEEP_PREALLOC 标 志 ， 将 不 会 释放 预 分 配 的 
内 存 块 。 


第 21 行 到 第 25 行 代码 中 , 如 果 使 用 了 MY_MARK_ BLOCKS_FREE 标 志 , 仅仅 将 所 有 内 存 块 设置 成 空 
闲 状态 ， 然 后 直接 返回 。 


第 28 行 到 第 36 行 代码 用 于 释放 free 链 表 中 的 所 有 内 存 块 。 
第 37 行 到 第 45 行 代码 用 于 释放 used 链 表 中 的 所 有 内 存 块 。 


4.1.7 MEM ROOT 的 使 用 场景 


通过 以 上 的 介绍 ， 我 们 相信 读者 对 MEM_ROOT 的 使 用 及 其 内 存 管理 机 制 有 了 一 个 很 深刻 的 理 
解 。 细 心 的 读者 会 发 现 用 户 通过 标准 库 的 malloc 函 数 申请 的 内 存在 使 用 完 之 后 需要 调用 free 函 数 
将 其 释放 ， 而 用 户 向 MEM_ROOT 申 请 的 内 存 不 需要 执行 相应 的 free 操 作 ， 只 需要 在 最 后 将 MEM_ROOT 
中 的 所 有 内 存 块 置 为 空闲 或 者 释放 掉 即 可 , 这 样 的 好 处 是 管理 起 来 十 分 简单 ,不 需要 跟踪 每 个 已 
分 配 的 内 存在 什么 时 候 进行 回收 , 缺点 就 是 这 样 的 策略 限制 了 MEM_RO0T 的 使 用 场景 一 使 用 同一 
个 MEM_ROOT 实 例 的 所 有 对 象 必须 具有 相同 的 生命 周期 。 所 以 我 们 在 使 用 MEM_R00T 的 时 候 遵 循 了 一 
个 这 样 的 原则 : 具有 相同 生命 周期 的 变量 向 同一 个 MEM_RO0T 实 例 申请 内 存 ， 在 这 些 变 量 的 生命 周 
期 结束 之 后 将 MEM_R0oT 中 的 内 存 释 放 就 可 以 了 ， 具 有 不 同 生命 周期 的 变量 向 不 同 的 MEM_RO0T 实 例 
申请 内 存 。 


4.2 文件 缓存 I0_CACHE 


缓存 技术 在 计算 机 领域 中 被 广泛 用 于 缓存 结果 , 减少 慢 速 操作 的 执行 次 数 ， 从 而 提高 系统 的 
整体 性 能 。 例如， 浏览 器 缓存 缓存 了 网 站 的 数据 ,减少 了 对 网 站 的 访问 ， 提 高 了 用 户 体验 ; 许多 
门户 网 站 将 主 站 的 数据 缓存 到 分 布 在 各 地 的 CDN 结 点 上 ,用 户 的 读 取 请 求 会 被 分 发 到 距离 最 近 的 
CDN 结 点 上 ， 从 而 提高 请 求 的 响应 速度 。 


磁盘 IO 是 一 个 相对 来 说 比较 慢 速 的 操作 ，MariaDB 通 过 I0_CACHE 结 构 缓 存 文件 的 读 写 操作 ， 
减少 了 磁盘 的 IO 次 数 ， 提 高 了 磁盘 文件 的 读 写 效率 。 
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4.2.1 高 性 能 武器 缓存 


缓存 , 作为 计算 机 系统 中 非常 重要 的 一 部 分 , 存在 于 计算 机 系统 中 的 许多 位 置 ， 对 提高 系统 
的 整体 性 能 发 挥 着 举足轻重 的 作用 。 同 时 ， 缓 存 技术 对 于 构建 高 性 能 的 服务 架构 也 非常 有 用 。 


1. CPU L1/L2 cache 


在 计算 机 的 发 展 过 程 中 ，CPU 的 运行 速度 越 来 越 快 ，CPU 要 求 从 内 存 中 读 取 数据 的 速度 也 越 
来 越 快 。 然 而 内 存 的 速度 提升 却 很 缓慢 ， 同 时 能 够 高 速 读 写 的 内 存 价格 又 非常 昂贵 , 不 能 大 量 地 
采用 。 著 名 的 CPU 生产 厂商 mntel 从 性 价 比 的 角度 出 发 ， 采 用 少量 的 高 速 内 存 和 大 量 的 廉价 内 存 相 
结合 的 方式 ,减少 CPU 访问 内 存 的 平均 时 间 ， 这 就 是 CPU cache 技 术 。CPU cache 就 是 少量 的 位 于 
CPU 和 主 存 之 间 的 能 够 高 速 读 写 的 内 存 。 最 初 的 CPU cache 只 有 一 级 (CPU L1 cache )， 随 着 CPU 
速度 的 进一步 提升 ， 慢 慢 出 现 了 二 级 缓存 (CPU L2 cache )， 它 位 于 一 级 缓存 和 主 存 之 间 ， 二 级 
缓存 的 容量 比 一 级 缓存 大 ， 但 速度 相对 于 一 级 缓存 要 慢 一 些 ， 但 比 内 存 要 快 得 多 。 现 在 许多 主 
流 的 CPU 已 经 包含 了 三 级 缓存 (CPU L3 cache )。 图 4-4 演 示 了 主 存 、 一 级 缓存 和 二 级 缓存 之 间 的 


主 在 


图 4-4 CPU L1/L2 cache 
2. 页 高 速 缓存 


在 计算 机 系统 中 ， 访 问 一 次 内 存 所 需要 的 时 间 在 20ns ~ 100ns ( 纳 秒 )， 而 访问 一 次 磁盘 所 需 
的 时 间 在 10ms ( 毫秒 ) 左右 (包括 寻 道 时 间 + 旋 转 延 时 + 数据 传输 时 间 )， 两 者 之 间 相 差 数 10 万 倍 。 
Linux 内 核 采用 page cache 机 制 〈 页 面 高 速 缓存 ， 页 面 的 大 小 为 4KB ) 加 快 对 磁盘 文件 的 读 写 。 页 
高 速 缓冲 区 是 内 存 中 用 于 缓存 磁盘 文件 数据 的 一 块 区 域 。 对 于 磁盘 文件 的 读 请 求 ,内 核 首 先 在 页 
高 速 缓冲 区 中 查找 ， 如 果 存 在 ,直接 从 页 高 速 缓冲 区 中 读 取 所 请 求 的 数据 ， 如 果 页 高 速 缓冲 区 中 
没有 , 需要 从 磁盘 读 取 对 应 的 页 ， 同时 读 取 紧 随 其 后 的 少数 几 个 页 ， 并 将 其 放 入 页 高 速 缓冲 区 中 
He; 对 于 磁盘 文件 的 写 请 求 ， 内 核 直接 修改 页 高 速 缓冲 区 中 对 应 的 页 ， 被 修改 过 的 页 称 为 脏 页 ， 
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内 核 负 责 定 期 地 (或 者 由 于 脏 页 达到 一 定 比 率 ) 将 页 高 速 缓冲 区 中 的 脏 页 刷新 到 磁盘 中 ,这 种 写 
策略 也 叫 作 回 写 (write back )， 如 图 4-5 所 示 。 


读 磁 盘 文件 ” 写 磁盘 文件 


主 存 


图 4-5 页面 高 速 缓存 
3. 分 布 式 内 存 缓存 一 一 memcached 


memcached 是 一 个 高 性 能 的 分 布 式 内 存 缓存 。 在 一 些 网 站 架构 中 ,， 它 经 常 被 用 来 缓存 一 些 数 
据 库 查 询 结果 或 者 是 需要 计算 的 中 间 结 果 , 减少 慢 速 的 数据 库 访 问 操 作 和 计算 工作 , 从 而 提高 整 
个 网 站 的 响应 速度 以 及 网 站 的 负载 能 力 。 


缓存 ,无 论 位 于 系统 层 ， 还 是 应 用 层 ， 位 于 分 布 式 架构 中 ,还 是 单机 系统 里 ， 其 本 质 都 是 减 
少 慢 速 操作 的 次 数 ， 提 高 系统 的 整体 性 能 。 


4.2.2 10 CACHE 的 定义 


I0_CACHE 是 MariaDB 中 定义 的 IO 缓存 结构 ， 主 要 作用 是 减少 磁盘 操作 的 次 数 ， 从 而 提高 磁盘 
文件 的 读 写 性 能 。 除 此 之 外 ，I0_CACHE 还 可 以 被 用 来 作为 网 络 IO 的 缓冲 区 。 在 MariaDB 中 ， 许 多 
磁盘 文件 的 操作 都 是 通过 I0_CACHE 进 行 的 。 例 如 所 有 的 日 志文 件 的 读 写 ， 包 括 二 进 制 日 志 binlog 
的 读 写 、 查 询 日 志 general log 的 读 写 ， 等 等 。 


下 面 我 们 列举 了 枚 举 类 型 cache_ type 以 及 I0_CACHE 结 构 本 身 的 定义 : 


// include/my_sys.h 


enum cache_type 

{ 
TYPE_NOT SET= 0, 
READ_CACHE , 
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WRITE_CACHE, 
SEQ_READ_APPEND /* 顺序 读 取 追加 写 入 */， 
READ FIFO, 

READ_NET,WRITE_NET 

J; 


typedef struct st_io_cache 

{ 
enum cache_type type; 
int file; // 文件 描述 符 
uchar *buffer; 
size_t buffer_length; 
my_off_t pos _in file; // buffer 中 的 数据 在 文件 中 的 偏 移 量 
my_off t end of file; // 文件 结尾 位 置 
uchar *read_pos; 
uchar *read_end; 
uchar *request_pos; 
uchar *write buffer; 
uchar *write_pos; 
uchar *write_end; 
uchar *append_read_pos; 
uchar **current_pos, **current_end; 
mysql _mutex_t append buffer lock; 
IO_CACHE_ SHARE *share; 
int (*read_function)(struct st_io cache *,uchar *,size t); 
int (*write_function)(struct st io cache *,const uchar *,size t); 


// 可 以 注册 相关 的 回调 函数 ， 在 不 同 的 阶段 执行 
IO CACHE CALLBACK pre read; 
IO_CACHE_CALLBACK post read; 
IO_CACHE_CALLBACK pre close; 


void *arg; 

ulong disk writes; // 统计 写 磁盘 次 数 ， 也 就 是 将 写 丝 冲 区 的 内 容 写 入 到 文件 中 的 次 数 
int seek not done; 

int error; 


size t read length; 
myf myflags; 
my bool allocated buffer; 
} IO_CACHE; 
从 cache _ type 的 定义 可 以 看 出 ，I0_CACHE 可 以 作为 磁盘 文件 的 读 缓 存 、 写 缓存 或 者 是 顺序 读 
取 追 加 写 入 缓存 ， 也 可 以 作为 网 络 IO 的 缓存 。 


下 面 我 们 给 出 I0_CACHE 各 个 成 员 的 含义 。 


O type: I0_CACHE 的 类 型 ， 可 以 是 READ_CACHE 或 者 是 WRITE_CACHE ， 等 等 。 
O file: 与 IT0_CACHE 关 联 的 文件 描述 符 。 
O buffer: IO_CACHE 的 缓冲 区 ， 一般 情况 下 是 在 I0_CACHE 初 始 化 阶段 分 配 的 。 
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口 buffer_length: 绥 冲 区 的 大 小 。 

O pos_in file: 缓冲 区 的 内 容 在 文件 中 的 偏 移 量 。 

D end_of file: 文件 的 结束 位 置 。 

O read_pos: 已 读 取 的 数据 在 读 缓存 中 的 偏 移 量 。 

O read_end: 读 缓存 中 可 以 读 取 的 数据 的 结束 位 置 。 

口 request_pos: 当 使 用 的 是 async_io 的 时 候 使 用 。 

O write buffer: 写 缓冲 区 的 开始 位 置 。 当 IO_CACHE 的 类 型 为 WRITE_CACHE 时 ，write_buffer 
的 值 和 buffer 的 值 一 致 ; 当 I0_CACHE 的 类 型 为 SEQ_READ_APPEND 时 ,write_buffer 指 向 buffer 
的 正中 间 位 置 , 因为 在 这 种 情况 下 , 缓冲 区 buffer 的 前 面 一 半 部 分 作为 顺序 读 缓冲 区 , 后 
面 的 另 一 半 作 为 追加 写 缓冲 区 。 

口 Write_pos: 下 一 次 写 应 该 从 write _pos 指 定 的 位 置 开始 。 

O write end: 写 缓冲 区 的 末尾 。 

口 append read pos: 当 I0_CACHE 的 类 型 为 SEQ_READ_APPEND 时 ， 当 顺序 读 缓 冲 区 没有 足够 的 
数据 满足 用 户 的 读 请 求 时 ,会 去 文件 中 读 取 相应 的 数据 ， 如 果 文 件 中 也 没有 足够 的 数据 
MN, SAHIN Arh RAAB. append read pos 指示 了 已 经 读 取 到 了 追加 写 组 
冲 区 的 相应 位 置 。 

口 append_buffer_lock: 上 面 介绍 过 ， 当 I0_CACHE 的 类 型 为 SEQ_READ_APPEND 时 ， 可 能 会 读 取 
追加 写 缓 冲 区 中 的 内 容 ， 为 了 防止 在 读 取 追 加 写 缓冲 区 的 过 程 中 发 生 写 操作 ， 需 要 进行 
相应 的 锁 保 护 。 

O share: 主要 用 在 有 多 个 线程 对 同一 个 文件 进行 并 发 读 时 。 

O read_functionfilwrite_function: 它们 为 两 个 函数 指针 ， 其 所 对 应 的 函数 根据 I0_CACHE 的 

类 型 而 有 所 不 同 。 


m read_function 函 数 的 主要 作用 是 当 读 缓冲 区 中 的 内 容 读 完 之 后 ， 将 文件 中 的 内 容 (或 
者 是 append_buffer 中 的 内 容 ) 读 取 到 读 缓存 中 。 

m Write_function 函 数 的 主要 作用 是 当 写 缓冲 区 没有 足够 的 空间 来 满足 当前 的 写 操作 时 ， 
将 写 缓冲 区 的 内 容 写 入 到 文件 中 。 


O pre_read、post_read 和 pre_close: 这 是 3 个 回调 函数 ,如 果 设 置 了 相应 的 值 , 将 会 在 执行 
IO 操作 的 某 些 阶段 执行 用 户 指定 的 动作 。 如 果 指 定 了 pre_read 的 值 ,， 在 I0_CACHE 发 生 实际 
的 读 操 作 ( 从 文件 读 取 数 据 到 读 缓冲 区 ) 之 前 会 执行 pre_read 指 定 的 操作 ; 如 果 post_read 
的 值 不 为 空 ， 在 I0_CACHE 发 生 实际 的 读 操作 之 后 会 执行 post_read 指 定 的 操作 ; 如 果 指 定 
了 pre_close 的 值 ， 在 结束 I0_CACHE 前 会 执行 pre_close 指 定 的 操作 。 

O arg: pre_read 和 post read 回调 函数 的 参数 。 

O disk_writes: 写 磁盘 操作 的 次 数 ， 也 就 是 将 写 缓冲 区 的 内 容 写 人 到 文件 中 的 次 数 。 

D seek_not_done: 如 果 为 true， 表 明 没 有 执行 相应 的 seek 操 作 ， 主 要 用 于 从 指定 位 置 读 或 
写 文件 。 
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O error: 错误 人 码 。 

Q read_length: read_length 的 值 通常 情况 下 和 buffer_length 的 值 一 致 ， 除 非 当 前 使 用 的 是 
async_i0. 

O myflages: 主要 指定 在 执行 真正 的 读 写 操 作 时 ， 当 发 生 了 错误 ， 需 要 进行 什么 样 的 操作 ， 
例如 是 否 输出 错误 信息 ， 等 等 。 

口 allocated_buffer: 如 果 为 true, 说 明 当 前 的 缓冲 区 是 在 初始 化 I0_CACHE 的 过 程 中 分 配 的 ， 
在 结束 I0_CACHE 的 时 候 需 要 对 其 进行 释放 。 


4.2.3 IO CACHE 的 使 用 


本 节 中 我 们 介绍 I0_CACHE 作 为 几 种 不 同类 型 缓存 的 使 用 ,这 几 种 类 型 为 磁盘 文件 读 缓存 、 磁 
盘 文件 写 缓存 以 及 磁盘 文件 顺序 读 取 追 加 写 和 人 缓存 。 


1. I0_CACHE 作 为 磁盘 文件 读 缓存 


我 们 知道 ， 从 磁盘 文件 中 读 取 数 据 是 比较 耗 时 的 操作 ， 所 以 在 Linux 系 统 中 采用 了 页 缓存 机 
制 来 提高 磁盘 文件 的 读 写 效 率 。 页 缓存 机 制 是 位 于 操作 系统 层面 的 磁盘 文件 缓存 , 我 们 也 可 以 在 
应 用 层面 为 磁盘 文件 添加 缓存 ， 从 而 提高 磁盘 文件 的 读 写 效率 。I0_CACHE 可 以 作为 磁盘 文件 位 于 
应 用 层面 的 读 缓存 ， 用 来 减少 磁盘 文件 的 读 操作 ， 提 高 磁盘 文件 的 读 性 能 。 

磁盘 文件 读 缓存 的 一 般 策 略 如 下 : 读 操作 首先 查看 缓存 中 是 否 包 含 所 请 求 的 数据 ， 如 果 有 ， 
直接 从 缓存 中 读 取 ,， 如 果 没 有 ， 从 磁盘 文件 读 取 包 含 所 请 求 数据 的 一 大 块 数据 放 和 人 缓存 中 。 磁 盘 
文件 的 读 缓存 之 所 以 能 够 提高 磁盘 文件 的 读 效 率 , 主要 归功 于 数据 的 局 部 性 原理 , 也 就 是 说 下 次 
读 操 作 所 请 求 的 数据 很 可 能 位 于 这 一 次 读 请 求 所 读 取 数 据 的 附近 。 


下 面 给 出 了 一 个 I0_CACHE 作 为 读 缓存 的 例子 : 


// 初始 化 缓存 
IO CACHE file cache 
if (init io cache(&file cache, fd, cache size, READ CACHE, start_pos, 0, 0)) 
{ 
printf("init_io_cache failed\n"); 
return init_error; 


} 


// 读 取 指定 字 节 的 数据 
char buffer[BUFFER LEN]; 
my_b read(&file cache, buffer, BUFFER LEN); 
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// 读 取 一 个 字 节 
uchar one byte = my b get(&file cache); 


// 查询 读 取 到 文件 的 哪个 位 置 
size_t positon = my b tell(&file cache); 


// 25 R10 CACHE, 74> 80% A 

if (end io cache(&file_ cache) ) 

{ 
printf("end_io_cache failed.\n"); 
return end_error; 


} 


在 使 用 I0_CACHE 之 前 必须 调用 init_ io_cache 对 其 进行 初始 化 操作 。init io cacheB 


如 下 : 
// include/my sys.h 文 件 


int init io cache(IO CACHE *info, int file, size_t cachesize, 
enum cache _ type type, my_off_t seek offset, 
pbool use_async_io, myf cache_myflags); 


下 面 我 们 介绍 下 ;init_ io cache 各 个 参数 的 具体 含义 

O 参数 info 指 向 需要 初始 化 的 I0_CACHE 结 构 ， 该 参数 不 能 为 空 。 
口 参数 file 为 I0_CACHE 相 关联 文件 的 描述 符 。 

口 参数 cachesize 将 指定 分 配 多 大 的 内 存 作为 I0_CACHE 的 缓存 。 
口 


I0_CACHE 作 为 写 缓 存 的 时 候 该 参数 为 NRITE_CACHE。 


同时 系统 支持 async_io ( 异步 IO )， 将 使 用 异步 IO 接口 进行 读 写 操作 。 


AE AY 


当 IO_CACHE 作 为 读 缓存 的 时 候 ，init_io_cache 函 数 主要 完成 了 以 下 工作 。 


口 将 传 入 的 文件 描述 符 和 当前 I0_CACHE 进 行 关联 。 
口 如 果 传 人 的 seek_offset 不 为 0， 移 动 到 文件 的 指定 位 置 。 
口 分 配 内 存 作为 缓存 区 。 


函数 的 声明 


参数 type 指 定 了 IO_CACHE 的 作用 ， 当 I0_CACHE 作 为 读 缓存 的 时 候 该 参数 为 READ_CACHE， 当 
O 参数 seek_offset 指 定 了 缓存 中 的 内 容 在 文件 中 的 偏 移 量 。 如 果 参 数 use_async_io 指 定 为 1， 


口 用 户 可 以 通过 参数 cache_myflags 指 定 init_io_cache 的 动作 ， 例 如 是 否 检 查 文件 的 大 小 ， 


在 对 I0_CACHE 进 行 初始 化 之 后 ， 你 就 可 以 对 I0_CACHE 进 行 读 取 操 作 了 。MariaDB 定 义 了 两 个 


接口 对 I0_CACHE 进 行 读 取 操 作 ， 其 声明 如 下 : 
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// include/my sys.h 文 件 
void my_b_ read(IO_CACHE *info, uchar *buffer, size_t count); 
int my_b_get(IO_ CACHE *info); 


my_b_readPAaxiy (EFA A 10_CACHEIRZ IGE EF n A buffert. mimy_b_geth (EH EM 
I0_CACHE 读 取 一 个 字 节 。 


当 你 想 知 道 读 取 到 文件 中 的 哪个 位 置 时 ， 可 以 调用 my_b_tell 函 数 来 查询 相关 的 位 置信 息 : 


// include/my_sys.h 文 件 


size_t my b tell(I0 CACHE *info); 


在 使 用 完 I0_CACHE 之 后 ， 需 要 调用 end io_cache 来 完成 相应 的 清理 工作 。 在 I0_CACHE 作 为 读 
缓存 的 时 候 ，end_io_cache 的 主要 工作 是 释放 已 分 配 的 内 存 ， 以 免 发生 内 存 泄漏 : 


// include/my sys.h 文 件 


int end io_cache(IO_CACHE *info); 

图 4-6 给 出 了 I0_CACHE 作 为 读 缓存 的 工作 机 制 。 用 户 调用 my_b_get 函 数 和 my_b_read 函 数 从 
I0_CACHE 中 读 取 所 需 的 数据 。 当 I0_CACHE 的 缓冲 区 中 的 内 容 被 全 部 读 取 完 之 后 ，I0_CACHE 会 使 用 
my_b_read 函 数 从 文件 的 相应 位 置 读 取 一 整 块 数据 到 I0_CACHE 的 缓冲 区 。 对 于 用 户 来 说 , 可 见 的 部 
分 只 有 方 框 外 的 my_b_get 函 数 和 my_b_ read 函数 。 


my_b_get 读 取 一 个 字 节 
my_b_read 读 取 指 定 字 节 的 数据 


缓存 已 读 取 的 位 置 可 读 取 的 最 大 位 置 
已 读 未 读 


| _my_b_read 从 文件 读 取 整 块 数据 到 buffer 


缓存 内 的 数据 在 


文件 中 的 偏 移 位 于 缓存 中 文件 


图 4-6 ”IO_CACHE 作 为 读 缓存 的 工作 机 向 


= 
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2. I0_CACHE 作 为 写 缓存 


当然 ，I0_CACHE 也 可 以 作为 磁盘 文件 的 写 缓存 ， 减 少 对 磁盘 文件 写 的 次 数 ， 提 高 磁盘 文件 的 
写 性 能 。 


下 面 给 出 了 一 个 使 用 I0_CACHE 作 为 写 缓存 的 例子 : 


// 初始 化 缓存 

IO CACHE file cache 

if (init io cache(&file cache, fd, cache size, WRITE CACHE, start_pos, 0, 0)) 
{ 


printf("init_io_cache failed\n"); 
return init_error; 


// 写 一 块 数据 到 IO_CACHE 
uchar buffer[buffer_len]; 


my b write(&file cache, buffer, buffer_len); 


// 写 一 个 字 节 到 IO_CACHE 
uchar chr = 'a 
my b write byte(&file cache, chr); 


// 查询 写 文件 的 哪个 位 置 
size_t positon = my b wirte tell(&file cache); 


// 结束 IO_CACHE， 将 缓存 中 的 内 容 刷 新 到 文件 中 ， 并 且 释 放 分 配 的 内 存 
if (end io cache(&file cache) ) 
{ 

printf("end_io_cache failed. \n"); 

return end_error; 


} 


和 读 缓存 一 样 , I0_CACHE 作 为 写 缓存 , 在 使 用 之 前 也 需要 调用 init_io_cache 函 数 进 行 初始 化 ， 
不 同 的 是 ， 此 时 type 参 数 的 值 为 NRITE_CACHE。 


接 下 来 就 可 以 调用 my_b write 函数 或 my_b write _ byte 函数 进行 写 操作 。 这 两 个 函数 的 声明 如 下 : 


// include/my_sys.h 文 件 
void my b write(I0 CACHE *info, uchar *buffer, size_t count); 


void my _b write byte(IO CACHE *info, uchar chr); 
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my_b write PK AC AyD Ae TE IO_CACHE'P 5 A—iR ECHR, Mimy_b_write_byte eA ACH) AE ETE 
I0_CACHE 中 写 和 人 一 个 字 节 。 


你 还 可 以 通过 my_b_write tel1 函 数 来 查询 当前 写 的 数据 在 文件 中 的 偏 移 量 。my_b_ write _tel1 
函数 的 声明 如 下 : 

// include/my sys.h 文 件 

size_t my_b write tel1(IO_CACHE *info); 


当 用 完 I0_CACHE 时 ， 需 要 调用 end_io_cache 进 行 相应 的 清理 工作 。 当 I0_CACHE 作 为 写 缓存 的 
时 候 ，end_io_cache 的 主要 功能 如 下 。 
口 将 I0_CACHE 缓 存 中 的 内 容 刷 人 到 文件 。 
口 释放 缓冲 区 分 配 的 内 存 。 

图 4-7 给 出 了 I0_CACHE 作 为 写 缓存 的 工作 机 制 ， 用 户 调用 my_b_write 孙 数 和 my_b_write_byte 
函数 进行 写 操作 。 当 写 缓冲 区 的 数据 达到 一 定量 之 后 , 没有 更 多 的 空间 用 于 满足 当前 的 写 请求 时 ， 
IO_CACHE 会 调用 _my_b_write 子 数 将 缓存 中 的 内 容 写 入 到 文件 中 。 


my_D_WT1Te_DyTe 与 一 个 也 市 
J I my_b_write 写 入 指定 字 节 的 数据 


当前 写 和 的 位 置 可 写 人 的 最 大 位 置 
| 无 数据 


_my_b write 将 buffez 吕 
的 数据 写 入 到 文件 


缓存 数据 在 文 


图 4-7 I0_CACHE 作 为 写 缓存 
3. I0_CACHE 作 为 顺序 读 取 追 加 写 入 缓存 


除了 上 面 介绍 的 可 以 作为 磁盘 文件 的 读 缓存 和 写 缓 存 外 ，I0_CACHE 还 可 以 同时 作为 文件 的 顺 
序 读 缓存 和 追加 写 缓存 。 顺 序 读 表示 只 能 从 前 往 后 读 取 , 追加 写 表 示 只 能 在 文件 的 末尾 追加 数据 。 
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首先 我 们 给 出 一 个 使 用 10_CACHE 作 为 顺序 读 取 追加 写 入 缓存 的 例子 : 


// 初始 化 缓存 

IO_CACHE file cache; 

if (init io cache(&file cache, fd, cache size, SEQ READ APPEND, start_pos, 0, 0)) 
{ 


printf("init_io_cache failed\n"); 
return init_error; 


// 从 I0_CACHE 顺 序 读 取 数 据 
uchar read_buffer[read_len]; 


my_b_read(&file_cache, read_buffer, read len); 
uchar chr = my b get(&file cache); 


// 追加 数据 到 文件 末尾 
uchar append_buffer[append_len]; 


if (error = m b append(&file cache, append_buffer, append len)) 
{ 

printf("append file_cache failed.\n"); 

return error; 


} 


// 结束 IO_CACHE 

if (end io cache(&file cache) ) 

{ 
printf("end_io_cache failed.\n"); 
return end_error; 


} 

当 I0_CACHE 作 为 顺序 读 取 追 加 写 人 缓存 时 ， 读 取 数 据 的 接口 是 不 变 的 ， 还 是 使 用 my_b_read 
函数 和 my_b_get 函 数 , 但 写 数据 的 接口 发 生 了 变化 , 使 用 的 是 my_b_append 函 数 , 该 函数 负责 将 数 
据 追 加 到 文件 未 尾 ， 其 声明 如 下 : 


// include/my_sys.h 


int my_b append(IO CACHE *info, uchar *append buffer, size_t append len); 


end_io_cache 函 数 在 I0_CACHE 为 顺序 读 取 追 加 写 和 人 缓存 时 的 主要 工作 和 I0_CACHE 作 为 写 缓 存 
的 功能 基本 一 致 ， 一 方面 将 append_buffer 中 的 数据 刷 和 到 文件 中 ， 另 一 方面 释放 已 分 配 的 内 存 。 


图 4-8 给 出 了 IO0_CACHE 作 为 顺序 读 取 追 加 写 入 缓存 的 工作 机 制 。 我 们 需要 注意 的 是 , 此 时 分 配 
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了 两 倍 于 cachesize 大 小 的 内 存 ， 前 半 部 分 作为 顺序 读 缓冲 区 ( seq_read_buffer )， 而 后 半 部 分 作 
为 追加 写 缓冲 区 (append_buffer )。 


当 从 顺序 读 取 追加 写 入 类 型 的 I0_CACHE 中 读 取 数 据 时 ， 读 取 数 据 的 优先 级 如 下 。 


(1) 首先 从 seq_read_buffer 中 读 取 。 

(2) 其 次 从 文件 中 读 取 。 

(3) 最 后 从 append_buffer 中 读 取 。 

当 seq_read_buffer 中 有 足够 的 数据 可 以 满足 读 请 求 时 ， 直 接 从 中 读 取 相应 的 数据 即 可 。 当 
seq_read_buffer 中 没有 足够 的 数据 时 , 会 去 文件 中 读 取 相应 的 数据 。 如 果 文 件 中 也 没有 足够 的 数 
据 ， 那 么 就 从 append_buffer 中 读 取 相应 的 数据 。 在 读 取 append_buffer 中 的 内 容 时 需要 进行 加 锁 
操作 ， 因 为 其 他 的 进程 可 能 会 对 append_buffer 进 行 写 操作 。 


my P SSS vena 个 J | my_b_append 追 加 写 和 指定 字 世 的 数据 
my_b_get 读 取 一 个 字 节 


可 读 取 的 ， a 可 写 入 的 
当前 读 取 位 置 pama: BAR 当前 写 入 位 置 


顺序 读 缓存 (seq_read_buffer) 追加 写 缓存 (append_buffer) 


my_b flush_io_cache 将 append_buffeT 
_my_b_seq_read() 从 文件 中 的 内 容 追 加 写 到 文件 末尾 
读 取 数 据 到 顺序 读 缓存 


读 缓存 在 文 
件 中 的 偏 移 


图 4-8 I0_CACHE 作 为 顺序 读 取 追加 写 和 缓存 


4.3 NET 结构 


NET 结 构 定义 了 所 有 网 络 相 关 的 操作 。 在 MariaDB 中 ，NET 主 要 用 于 客户 端 和 服务 端 之 间 的 通 
言 ， 同 时 ，NET 内 部 还 支持 对 数据 进行 压缩 。 图 4-9 描 述 了 NET 结 构 以 及 对 NET 进 行 操作 的 相关 函数 。 
Vio 结 构 定 义 了 底层 网 络 IO 的 相关 操作 。 在 NET 内 部 ， 包 含 一 个 缓冲 区 ， 服 务 端 从 客户 端 接收 到 
的 数据 会 放 人 缓冲 区 ， 服 务 端 向 客户 端 发 送 数据 时 也 会 用 到 该 缓冲 区 。 


一 、 
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struct Vio struct NET 


Eea 


用 户 写 数据 到 缓冲 区 从 网 络 读 取 数 据 到 缓冲 区 将 缓冲 区 的 数据 发 送 到 网 络 


buff net_write_command() net_flush() 
butt end my_net_read() = 


compress 
= 缓冲 


图 4-9 NET 


my_net writel) net_real_write() 


[xl 


接 下 来 ， 我 们 给 出 NET 结 构 的 定义 : 
// include/mysql_com.h 


typedef struct st_net { 
Vio *vio; 
unsigned char *buff; 
unsigned char *buff_end; 
unsigned char *write_pos; 
unsigned char *read_pos; 


my_socket fd; 


unsigned long remain_in_buf, length, buf length, where_b; 
unsigned long max_packet,max_packet_size; 


unsigned int write_timeout, read_timeout, retry_count; 
unsigned int *return_status; 

unsigned char reading or writing; 

char save_char; 


my bool compress; // woRAtrue, Arf K P HZ W ih SM AAR BA 


unsigned int pkt_nr; // 当前 包 序 号 
unsigned int compress_pkt_nr; // 压缩 协议 的 当前 包 序 号 


unsigned int last_errno; // 发 送 给 客户 端的 最 后 一 个 错误 码 (MySQL 内 部 错误 码 ) 
unsigned char error; 


char last error[MYSOL ERRMSG SIZE]; 


char sqlstate[SOLSTATE_LENGTH+1]; 
} NET; 


下 面 我 们 给 出 NET 的 各 个 成 员 的 具体 含义 。 
O vio: vio 封 装 了 底层 网 络 IO 的 相关 操作 。 


口 buff、buff_ endbuff 和 buff end: 它们 定义 了 缓冲 区 ， 用 于 缓存 读 取 的 客户 端 数 据 或 者 将 
要 发 送 到 客户 端的 数据 。buff 是 缓冲 区 的 开始 ，buff_end 是 缓冲 区 的 结束 。 
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口 write_pos: 当 绥 冲 区 缓存 了 将 要 发 送 到 客户 端的 数据 时 ，write_pos 指 向 下 一 次 写 缓冲 区 

的 开始 位 置 。 

O read_pos: 当 缓冲 区 缓存 了 客户 端 发 来 的 数据 时 , read_pos 指 向 下 一 次 读 取 数据 的 开始 位 置 。 

QO fd: 用 于 支持 Perl DBIDBD 客 户 端 接口 。 

O remain_in_buff: 在 压缩 协议 中 ,在 读 取 压 缩 包 的 过 程 中 ,可 能 会 尝试 读 取 比 压缩 包 长 度 
更 长 的 网 络 数据 ， 因 此 读 取 的 数据 可 能 包括 下 一 个 包 的 部 分 数据 ， 该 变量 用 于 记录 读 取 
了 多 少 字 节 下 一 个 包 的 数据 。 在 没有 使 用 压缩 协议 进行 通信 时 ， 不 会 用 到 该 变量 。 

口 length: 当前 包 的 长 度 ， 不 包含 包头 的 长 度 。 

O buf_length: 缓冲 区 中 有 效 的 数据 长 度 。 

O where b: read pos-buff 的 值 ， 缓 冲 区 中 当前 读 取 的 位 置 。 

口 max_packet: 当前 缓冲 区 的 长 度 。 

口 max_packet_size: 允许 的 包 的 最 大 值 ， 对 应 于 配置 文件 中 的 max-allowed-packet。 

O read_timeout 和 write_timeout: 网 络 读 操作 的 超时 时 间 和 网 络 写 操作 的 超时 时 间 , 分 别 对 

应 于 配置 文件 中 的 net_read _time 和 net_write timeout。 

口 return_status: 指向 与 该 连接 相关 联 的 THD 线 程 描述 符 中 的 server_status 变 量 。 

O retry_count: 网 络 操作 失败 时 重 试 的 次 数 ,对 应 于 配置 文件 中 的 net_retry_count。 

口 reading_or_writing: 在 没有 正在 进行 的 VO 操作 时 为 0， 有 读 操 作 时 为 1， 有 写 操 作 时 为 2。 

口 compress: 如 果 为 1， 表 明 与 客户 端 通信 时 对 数据 进行 压缩 。 

口 pkt_nr: 当前 包 序号 。 

口 compress_pkt_nr: 使 用 压缩 协议 进行 通信 时 的 当前 包 序 号 。 

O last_errno: 发 送 给 客户 端的 最 后 一 个 错误 信息 的 错误 码 。 

O error: 如 果 LIO 操 作成 功 ， 则 设置 成 0; 如 果 协 议 层 上 有 逻辑 错误 ， 则 设置 成 1; 如 果 有 系 
统 调用 或 标准 库 错 误 ， 则 设置 成 2; 特殊 情况 下 ， 在 尝试 展开 一 个 缓冲 区 ， 接 受 一 个 大 型 
包 失 败 后 ， 如 果 成 功 跳 过 这 个 大 型 包 ， 则 设置 成 3。 

口 sqlstate: SQL 的 状态 。 


44 ”线程 上 下 文 一 一 THD 


THD 类 是 一 个 线程 描述 符 ， 包 含 了 一 个 线程 的 所 有 上 下 文 信息 。 通 常情 况 下 ， 一 个 THD 实 例 对 
应 于 一 个 线程 ， 但 在 某 些 情况 下 ， 例 如 MariaDB 使 用 的 是 线程 池 模式 来 处 理 客户 端 连 接 的 话 ， 
个 客户 端的 连接 也 都 会 对 应 一 个 THD 实 例 。 


如 果 THD 实 例 对 应 的 是 一 个 客户 端的 连接 ,那么 它 包含 了 当前 连接 的 所 有 信息 ， 例 如 客户 端 
的 IP 地 址 信息 、 客 户 端 登录 所 使 用 的 账号 、 当 前 用 户 的 权限 信息 、 当 前 选择 的 是 哪个 数据 库 ( USE 
DB 命令 )、 当 前 执行 的 事务 状态 、 当 前 连接 上 执行 的 查询 是 否 被 杀 死 了 ， 等 等 。THD 实 例 还 可 能 对 
应 于 MariaDB 中 的 其 他 系统 线程 ， 例 如 用 于 复制 的 slave 线 程 ， 等 等 。 
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下 面 我 们 给 出 类 THD 的 定义 ， 其 中 仅仅 列 出 一 些 比 较 重要 的 成 员 : 


// sql/sql_class.h 


class THD { 

public: 
LEX *lex; // 当前 查询 语法 树 
CSET_STRING query_string; 
char *db; // 当前 选择 的 数据 库 


size_t db_length; 

TABLE *open_tables; 
TABLE *temporary_tables; 
TABLE *derived_tables; 


MYSQL LOCK *lock; 


MDL_context mdl_context; // 元 数据 锁 
NET net; 


Protocol *protocol; 


HASH user vars; // 用 户 自 定 义 的 变量 
String packet; // 网 络 IO 动 态 缓冲 区 


String convert_buffer; 


struct system variables variables; 
mysql_mutex_t LOCK_thd_data; 


char *thread_stack; // 当前 线程 栈 起 始 地 址 
const char *where; 


ulong client_capabilities; // BP Ia LAF YA HE 
ulong max_client_packet_length; 


enum enum_server_command m_command; 


uint16 peer_port; // Xt 5% 5% 2 y 
struct { 

bool report_to client; 

bool report; 

uint stage, max_stage; 


ulonglong counter, max_counter; 
ulonglong next_report_time; 
Query_arena *arena; 
} progress; // 当前 命令 的 执行 进度 


private: 
binlog filter_state m_binlog filter_state; 
enum_binlog format current_stmt_binlog format; 
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public: 
struct st_transactions transaction; 


Global_read_lock global_read_lock; 
table map table map for update; 


private: 
ha_rows m_sent_row_count; 
ha_rows m_examined_row_count; 


public: 
USER_CONN *user_connect; 
CHARSET_INFO *db charset; 


query_id t query_id; 
pthread t real_id; // POSIX 242 5 
my_thread_id thread_id; 


enum tx isolation tx_isolation; // 当前 连接 的 事务 隔离 级 别 

killed state volatile killed; // 终止 标识 

bool slave thread; // 如 果 为 1， 表明 当前 线程 为 slave_io 线 程 或 者 slave_sq1 线 程 
NET *slave_net; // 从 库 到 主 库 的 网 络 连接 


time_t current_connect_time; 
Locked tables list locked tables list; 


MEM ROOT main_mem_root; // 内 存 池 


}; 
下 面 我 们 给 出 THD 中 各 个 成 员 的 含义 。 


O lex: 当前 查询 的 语法 解析 树 。 

口 query_string: 当前 查询 的 字符 串 形式 。 

口 db 和 db_length: 当前 选择 的 数据 库 ， 可 以 通过 use 命 令 来 更 改 。 

口 open_tables: 当前 会 话 打 开 的 所 有 普通 表 ， 包 括 打开 的 数据 库 表 和 临时 表 。 

口 temporary_tables: 当前 会 话 打 开 的 所 有 临时 表 ， 包 括 使 用 create temporary table 命 令 打 
开 的 用 户 层面 的 临时 表 以 及 某 些 命令 在 执行 过 程 中 使 用 到 的 内 部 临时 表 , 例如 alter 命 令 。 
O derived_tables: 当前 查询 生成 的 派生 表 , 例如 SELECT 语句 的 NHERE 条 件 中 如 果 包 含 子 查询 
语句 ， 那 么 会 生成 派生 表 来 保存 子 查询 的 结 

O lock: 执行 SELECT、INSERT 或 UPDATE 等 语句 的 过 程 中 自动 获取 的 表 锁 ( 不 是 通过 LOCK TABLES 
命令 获取 的 )。 
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O mdl_context: 当前 事务 所 获取 的 元 数据 锁 (meta data lock )。 元 数据 锁 是 相对 于 数据 锁 
(data lock ) 来 说 的 ， 其 作用 是 保护 库 表 结 构 。 当 执行 DDL 语 句 的 时 候 ， 会 首先 获取 表 的 
排他 元 数据 锁 ， 而 在 执行 DML 语 句 的 时 候 会 获取 共享 元 数据 锁 。 

O net: 到 客户 端的 网 络 连接 。 

口 protocol: 客户 端 和 服务 端的 通信 协议 描述 符 。 

口 user_vars: 用 户 自 定义 的 变量 。 用 户 可 以 在 会 话 中 自 定义 变量 ,例如 下 面 的 语句 : 

SET @a:=3; 
SELECT coli FROM t1 WHERE clo2=@a; 

O packet: 网 络 IO 的 动态 缓冲 区 。 

O convert_buffer: 编码 转换 的 动态 缓冲 区 。 

Q variables: 可 以 被 客户 端 改 变 的 系统 变量 在 当前 连接 中 的 值 。 例 如 ,用 户 执行 如 下 命令 : 


SET LOCAL sort_buffer_size=256000; 


那么 当前 连接 中 执行 ORDER BY 和 GROUP BY 命令 时 可 使 用 的 排序 缓冲 区 的 最 大 值 为 256000。 
variables 变 量 还 包括 server id 的 值 。 


T LOCK_thd_data: 保护 当前 THD 数 据 的 锁 。 

O thread_stack: 当前 线程 的 线程 栈 的 开始 地 址 ， 主 要 用 于 防止 栈 溢出 。 

O where: 用 于 进行 错误 提示 ， 指 示 客 户 端的 哪 块 语句 有 错误 。 

O client_capabilities: 指示 客户 端 广 持 哪些 功能 。 通 常 ， 新 版 本 的 客户 端 能 够 支持 更 多 
的 通信 协议 。 通 过 该 变量 ， 服 务 端 知道 选择 一 种 客户 端 支持 的 协议 与 其 进行 通信 。 

口 max_client_packet_length: 客户 端 包 的 最 大 长 度 。 

O m command: 当前 查询 的 命令 类 型 ， 例 如 是 COM_INIT_DB 或 者 COM_QUERY， 等 等 。 

口 peer_port: 该 连接 客户 端的 端口 号 。 

O progress: 该 变量 记录 了 当前 命令 的 执行 进度 信息 。 

口 m binlog_filter_state: 指示 了 当前 语句 是 否 该 写 入 到 binlog 中 。 

O current_stmt_binlog format: 指示 了 当前 语句 记录 binlog 的 格式 。 

O transaction: 当前 事务 上 下 文 。 

口 global read lock: 全 局 读 锁 。 

Q table_map_for_update: 对 于 某 些 语句 可 能 会 修改 多 张 表 的 数据 ， 该 变量 记录 了 被 修改 的 
这 些 表 。 

口 m_sent_row_count: 实际 发 送 给 客户 端的 数据 行 数 。 

口 m_examined_row_count: 命令 执行 过 程 中 访问 的 数据 行 数 ， 主 要 用 于 慢 查询 日 志 报 告 。 

口 user_connect: 该 变量 是 针对 账号 进行 的 一 些 统计 信息 , 例如 该 账号 同时 登录 的 客户 端 个 
数 、 该 账号 每 小 时 发 送 的 写 请 求 数 ， 等 等 。 

口 db_charset: 当前 数据 库 的 编码 。 
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O query_id: 当前 查询 在 MariaDB 内 部 的 id 号 。 

O real id: 当前 线程 的 POSIX 线 程 号 ， 主 要 用 于 调试 。 

口 thread_id: 当前 线程 在 MariaDB 中 的 线程 号 ， 是 我 们 执行 SHOW PROCESSLIST 时 看 到 的 线程 

号 ， 可 以 作为 KILL 命 令 的 参数 。 

口 tx_isolation: 当前 连接 的 事务 隔离 级 别 。 事 务 的 隔离 级 别 分 为 read uncommitted ( 可 读 
取 未 提交 事务 )、read committed ( 可 读 取 已 提交 事务 )、repeatable read ( 可 重复 读 取 ) 
和 serializable (序列 化 )。 

O killed: 如 果 某 个 线程 被 要 求 停 止 ， 该 变量 会 被 设置 成 1， 例 如 我 们 在 执行 KILL 命 令 结 
某 个 查询 的 时 候 ， 将 对 应 线程 的 killed 变 量 置 成 1。 每 个 线程 在 运行 的 过 程 中 有 义务 经 常 
去 检查 该 变量 的 值 ， 如 果 发 现 为 1 ， 尽 快 进行 清理 工作 然后 退出 。 

口 slave_thread: 如 果 为 1， 表 明 当 前 线程 是 一 个 slave IO 线程 或 者 slave SQL 线程 。 

口 slave_net: 如 果 当 前 线程 是 slave IO 线程 ， 会 建立 一 个 从 库 到 主 库 的 网 络 连接 ， 该 变量 包 

含 了 该 网 络 连接 的 所 有 信息 。 

口 current_connect_time: 当前 客户 端 连 接 到 MariaDB 的 时 间 。 

口 locked tables_list: 使 用 LOCK TABLES 命 令 锁定 的 表 。 

口 main_mem_root: 当前 线程 的 内 存 池 。 


4.5 TABLE SHARE 


类 TABLE_SHARE 定 义 了 数据 库 表 的 基本 信息 , 一 个 TABLE_SHARE 实 例 对 应 于 数据 库 中 的 一 个 表 。 
当 我 们 执行 一 条 查询 语句 时 ， 必 须 打 开 对 应 的 表 ， 这 时 会 创建 一 个 TABLE 的 实例 ， 如 果 TABLE 实 例 
对 应 的 TABLE_SHARE 实 例 不 存在 〈 可 能 是 第 一 次 使 用 该 表 ， 或 者 之 前 执行 了 FLUSH TABLES 命 令 )， 
那么 需要 从 .frm 文 件 中 读 取 该 表 的 信息 ， 然 后 创建 对 应 的 TABLE_SHARE 实 例 。 


图 4-10 给 出 了 数据 库 表 、TABLE_SHARE 实 例 以 及 TABLE 实 例 之 间 的 关系 。 可 以 看 到 ， 一 个 数据 
库 表 对 应 一 个 TABLE_SHARE 实 例 , 但 可 以 对 应 多 个 TABLE 实 例 , 一 个 数据 库 表 的 多 个 TABLE 实 例 之 间 
共享 一 个 TABLE_SHARE 实 例 。 


TABLE TABLE TABLE 


TABLE_SHARE 


TABLE_SHARE 


图 4-10 TABLE_SHARE 对 象 和 TABLE 对 象 的 关系 
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下 面 我 们 给 出 TABLE_SHARE 的 定义 : 


// sql/table.h 


struct TABLE SHARE 


{ 


HASH name_hash; 
MEM_ROOT mem_root; 
TYPELIB keynames; 
TYPELIB fieldnames; 


mysql_mutex_t LOCK_ha_data; 
mysql_mutex_t LOCK_share; 


// 通过 列 名 查找 对 应 的 列 
// 内 存 池 

// 索引 名 索引 类 型 

// 列 名 列 类 型 


typedef I P List <TABLE, TABLE share> TABLE list; 


struct 


{ 
mysql mutex t LOCK table share; 


TABLE_SHARE *next, **prev; 
uint ref count; 


// 未 使 用 的 TABLE_SHARE 对 象 
// 使 用 该 TABLE_SHARE 的 TABLE 对 象 的 个 数 


Wait_for_flush_list m flush_tickets; // 等 待 该 TABLE_9HARE 对 象 刷新 的 线程 


TABLE_list used_tables; 
TABLE_list free tables; 

} tdc; 

LEX_CUSTRING tabledef_ version; 


engine option value *option_list; 


ha_table_ option struct *option_ struct; 


// 正在 使 用 的 TABLE 对 象 
// 未 使 用 的 TABLE 对 象 


// 版 本 信息 


// 以 下 几 项 内 容 会 复制 到 每 个 打开 的 TABLE 对 象 中 


Field **field; 
KEY *key_info; 
uint *blob field; 


uchar *default_values; 
LEX_STRING comment; 
CHARSET_INFO *table charset; 


LEX_STRING table cache key; 
LEX STRING db; 

LEX_STRING table_name; 
LEX_STRING path; 

LEX_STRING normalized_path; 


ha_rows min_rows, max_rows; 
ulong avg row length; 


// 所 有 的 列 
// 该 表 的 索引 
// blob 类 型 的 列 在 field 中 的 位 置 


// 列 的 默认 值 
// 表 的 注释 
// 字符 列 的 默认 编码 


// db + table 作 为 查询 表 的 键 值 
// 数据 库 名 

// RA 

// .frm 文 件 的 路 径 
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ulong version; // 版 本 信息 

ulong mysql_version; // MariaDB 版 本 信息 ， 对 于 5.0 之 前 的 版 本 ， 该 值 为 0 

ulong stored_rec_length; // 记录 长 度 

plugin ref db plugin; // 存储 引擎 插件 

enum row type row type; // 行 的 存储 格式 ， 包 括 fixed、dynamic、compact， 等 等 
enum tmp_table type tmp_table; // 临时 表 类 型 ， 包 括 事务 类 型 的 、 非 事务 类 型 的 、 内 部 表 ， 等 等 
enum ha_choice transactional; // 是 否 是 事务 类 型 的 表 

enum ha_choice page_checksum; // 是 否 开 启 了 页 校 验 


uint key block size; 
uint stats_sample_pages; 


uint fields; // 列 的 个 数 ， 包 含 虚 拟 列 

uint stored fields; // 列 的 个 数 ， 不 包含 虚拟 列 

uint rec buff length; // 行 缓存 大 小 

uint null fields; // 可 以 为 NULL 的 列 的 个 数 

uint blob fields; // blob 类 型 的 列 的 个 数 

uint varchar fields; // 字符 串 列 的 个 数 

uint db create options; // 创建 表 时 的 选项 ， 例 如 引 营 类 型 是 否 开启 check_sum， 等 等 
uint db options in use; // 正在 使 用 的 选项 

uint db record offset; // 记录 在 表 中 的 开始 位 置 

uint rowid field offset; // rowid 列 的 位 置 


uint primary key; 
enum open frm error error; 
uint open_errno; 


uint vfields; // 虚拟 列 的 个 数 

uint default fields; // 有 默认 值 列 的 个 数 

bool crypted; // 如 果 为 true， 说 明 .frm 文 件 是 加 密 的 
bool crashed; // 崩溃 标记 

bool is view; // 该 表 的 类 型 为 视图 

bool deleting; // 如 果 为 true， 表 明 该 表 正 在 被 删除 
bool can_cmp whole record; 

ulong table map id; // 表 的 内 部 id， 用 于 行 格式 的 复制 
char *tablespace; // 该 表 使 用 的 表 空 间 名 称 


// 分 区 表 信 息 

#ifdef WITH_PARTITION_STORAGE_ENGINE 
bool auto_partitioned; 
char *partition_ info str; 
uint partition info str len; 
uint partition info buffer size; 
plugin ref default_part_plugin; 

#endif 
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下 面 给 出 部 分 成 员 的 含义 。 


口 name_hash: 如 果 表 的 列 数 大 于 等 于 MAX_FIELDS_BEFORE_HASH, 会 建立 一 个 列 名 到 列 的 哈 希 

表 ， 这 样 就 可 以 通过 列 名 快速 找到 该 列 在 fields 中 的 位 置 。 

口 mem_root: 该 TABLE_SHARE 对 象 内 部 使 用 的 内 存 池 。 

口 keynames: 该 表 的 索引 名 称 以 及 索引 类 型 。 

O fieldnames: 该 表 的 列 名 以 及 列 类 型 。 

O tdc: 该 TABLE_SHARE 对 象 的 使 用 计数 以 及 TABLE 对 象 缓存 。 

O tabledef_version: 表 定 义 文件 的 版 本 信息 。 

O option list: 在 执行 create table 命 令 时 可 以 指定 额外 的 选项 ， 例 如 存储 引擎 类 型 、 字 

符 集 、 注 释 、 行 格式 等 信息 。option_list 为 字符 串 格式 的 选项 内 容 。 

O option_struct: 选项 在 MariaDB 内 部 的 表示 。 

O field: 列 信息 。 

O key_info: 索引 信息 。 

O blob field: 指示 了 哪些 列 的 类 型 为 blob。 

O default_values: 存储 了 各 个 列 的 默认 值 。 

QO comment: 表 的 注释 。 在 使 用 create table tb(...) comment="XXX" 命 令 创 建 表 时 指定 的 表 

的 注释 。 

O table_charset: 字符 串 类 型 的 列 的 字符 集 。 

O table cache key: 该 成 员 的 组 成 格式 为 data_base\otable_name\0，table cache 以 哈 希 表 的 
形式 缓存 了 数据 库 中 各 个 表 的 TABLE 对 象 , key 就 是 table cache _key, value 为 一 个 TABLE_SHARE 
对 象 和 对 应 的 多 个 TABLE 对 象 。 当 我 们 需要 获取 TABLE 对 象 时 ， 可 以 将 数据 库 和 表 名 按照 
table_cache_key 的 格式 生成 key 值 ， 到 table cache 中 快速 获取 对 应 的 TABLE 对 象 。 

O db: 该 表 所 在 数据 库 的 名 称 。 

O table name: 该 表 的 名 称 。 

O path: .frm 文 件 的 路 径 ， 可 能 包含 “符号 。 

口 normalized_path: 转换 后 的 .frm 文 件 的 路 径 ， 不 包含 ~ 符号。 

口 min_rows 和 和 max_rows: 在 创建 表 时 指定 在 该 表 中 存储 最 少 多 少 行 数据 和 最 多 多 少 行 数据 ， 

这 不 是 一 个 硬性 的 限制 ， 更 像 一 个 指示 语句 。 

O avg row length: 创建 表 时 指定 的 表 中 行 的 平均 长 度 的 近似 值 ， 主 要 对 包含 长 度 可 变 类 型 

的 表 进 行 该 项 设置 。 

O db_plugin: 指向 存储 引擎 插件 。 

口 row_type: 行 存储 格式 ， 包 括 fixed、dynamic、compressed、compact， 等 等 。 

口 transactional: 该 表 是 否 是 事务 类 型 的 表 。 

口 page_checksum: 是 否 支 持 页 校 验 。 

口 key_block_size: 创建 表 时 指定 的 索引 块 的 大 小 。 
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O stats_sample pages: 在 进行 统计 估算 的 过 程 中 取样 的 页 数 。 

O fields: 列 的 个 数 ， 包 含 虚 拟 列 。 

O stored_fields: 列 的 个 数 ， 不 包含 虚拟 列 。 

O rec_buff_length: 行 记录 缓冲 区 的 长 度 。 

口 null_fields: 可 以 为 NULL 的 列 的 个 数 。 

口 blob_ fields: 类 型 为 blob 的 列 的 个 数 。 

口 varchar fields: 类 型 为 varchar 的 列 的 个 数 。 

O rowid field offset: 列 rowid 的 偏 移 量 。 在 InnoDB 存 储 引擎 内 部 ， 每 一 行 记录 都 含有 一 
个 隐藏 的 列 rowid ( 行 号 ，6 字 节 )。 通 常情 况 下 ，InnoDB 的 表 会 在 主键 上 生成 聚 簇 索引 ， 
如 果 该 表 没 有 指定 主键 ， 会 在 unique 索 引 上 生成 聚 复 索 引 ， 如 果 unique 索 引 也 没有 ， 就 会 
在 rowid 列 上 生成 聚 复 索 引 。 

口 primary_key: 主键 的 位 置 。 

口 error 和 open_errno: 调用 open_table_def 消 数 读 取 .frm 文 件 时 发 生 的 错误 。 

Q vfields: 虚拟 列 的 个 数 。 

口 default_fields: 包含 默认 值 的 列 的 个 数 。 

口 crypted: 如 果 为 true， 表 明 .frm 文 件 经 过 了 加 密 。 

口 is_view: 如 果 为 true， 说 明 当 前 表 的 类 型 为 视图 。 

O deleting: 如 果 为 true， 表 明 当 前 的 表 正 在 被 删除 。 

O table_map_id: 表 在 MariaDB 内 部 的 id， 主 要 在 基于 行 格式 的 复制 时 使 用 。 

Q tablespace: 该 表 使 用 的 表 空 间 名 称 。 
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类 TABLE 定 义 了 数据 库 表 的 描述 符 。 当 我 们 执行 查询 语句 的 时 候 ， 需 要 打开 语句 中 指定 的 表 ， 
这 时 就 会 创建 一 个 TABLE 实 例 。 


下 面 我 们 给 出 类 TABLE 的 定义 : 
// sql/table.h 


struct TABLE 


{ 
TABLE_SHARE *s; // 指向 对 应 的 TABLE_SHARE 对 象 
handler *file; // 指向 存储 引擎 对 象 
TABLE *next, *prev; // 用 于 实现 TABLE 对 象 的 链表 
private: 


// 使 用 同一 个 TABLE_SHARE 对 象 的 其 他 TABLE 对 象 
TABLE *share_next, **share_prev; 
friend struct TABLE share; 
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public: 
THD *in_use; 
Field **field; 
uchar *record[2]; 


key_map covering keys; 

key map keys in use for query; 
key_map keys in_use_for_group by; 
key_map keys in use for order by; 
KEY *key_info; 

uint max_keys; 


Field *next_number_ field; 
Field **vfield; 


Table triggers list *triggers; 


String alias; 
query_id t query_id; 


ha_rows used_stat_records; 
ha_rows quick_condition_rows; 


uint db stat; 
uint derived_select_number; 


bool force_index; 
bool force_index_order; 
bool force_index_group; 


bool key_read; 


bool no_keyread; 
bool created; 


MEM_ROOT mem_root; 
GRANT_INFO grant; 
Filesort_info sort; 


// 分 区 表 信 息 
#ifdef WITH_PARTITION_STORAGE_ENGINE 
partition info *part_info; 
bool all_partitions pruned_away; 
#endif 


MDL_ticket *md1_ticket; 
B 


// 使 用 该 TABLE 对 象 的 当前 线程 描述 符 

// 表 对 应 的 列 

// 记录 临时 缓冲 区 

// 能 够 履 盖 当前 查询 的 索引 

// 当前 查询 可 以 使 用 的 索引 

// 可 以 被 group by 使 用 的 索引 ， 这 样 就 不 需要 进行 额外 的 排序 操作 
// 可 以 被 0rder by 使 用 的 索引 ， 这 样 就 不 需要 进行 额外 的 排序 操作 
// 该 表 的 索引 

// key _info 数 组 的 长 度 


// 自 增 列 
// 虚拟 列 


// 该 表 上 的 触发 器 ， 如 果 没 有 则 置 为 0 


// 表 名 或 表 别 名 
// 打开 并 且 使 用 该 TABLE 对 象 的 查询 


// 该 表 记 录 数 的 估计 值 ， 被 查询 优化 器 所 使 用 
// 满足 条 件 的 记录 数 的 预 估 值 


// 如 果 是 派生 表 ， 记 录 表 的 数 


// 如 果 为 true， 说 明 查 询 优化 器 已 经 知道 只 需要 访问 索引 就 可 以 获取 
// 所 查询 的 数据 (索引 履 盖 ) 


// 如 果 当 前 表 为 临时 表 ， 该 变量 的 值 为 true 


// 该 表 的 权限 控制 
// 排序 相关 的 信息 ， 主 要 在 order by 和 group by 命令 中 使 用 


// 当前 查询 在 该 表 上 获取 的 md1 锁 信息 
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下 面 我 们 给 出 TABLE 类 中 各 个 成 员 的 含义 。 


口 s: 指向 对 应 的 TABLE_SHARE 对 象 。 我 们 在 4.5 节 已 经 介绍 了 , 一 个 数据 库 表 对 应 一 个 TABLE_SHARE 
对 象 。TABLE 中 保存 的 信息 大 多 是 和 当前 查询 语句 相关 的 ， 而 TABLE_SHARE 保 存 的 大 部 分 信 

息 是 与 对 应 的 数据 库 表 相 关 的 。 

O file: 指向 表 对 应 的 存储 引擎 对 象 ， 通 过 该 对 象 对 数据 库 表 进行 操作 。 

口 next 和 prev: 用 于 实现 TABLE 链 表 。 

口 share_next 和 share_prev: 指向 使 用 同一 个 TABLE_SHARE 对 象 的 其 他 TABLE 对 象 。 

D in_use: 当前 使 用 该 TABLE 对 象 的 线程 。 

Q field: 该 表 的 列 。 

O record[2]: 记录 临时 缓冲 区 。 

口 covering_keys: 能 够 覆盖 当前 查询 的 索引 。 当 查询 的 字段 都 在 索引 中 的 时 候 ， 就 不 需要 

访问 对 应 的 行 数据 ， 我 们 称 之 为 索引 履 盖 。 

口 keys_in_use_for_query: 当前 查询 可 以 使 用 的 索引 。 

口 keys_in_use_for group_by: 可 以 被 group by 命令 使 用 的 索引 。 因 为 B+ 树 索引 本 身 是 按照 

索引 列 进行 排序 的 ， 所 以 就 不 需要 进行 额外 的 排序 操作 。 

口 keys_in_use_for_order_by: 可 以 被 order by 命令 使 用 的 索引 ， 同 上 。 

口 key_info: 该 表 的 索引 信息 。 

口 max_keys: key_info 数 组 的 长 度 。 

口 next_number_field: 指 问 自动 增长 的 列 ， 只 可 能 有 一 个 列 是 自动 增长 的 。 

口 vfield: 虚拟 列 。 

O triggers: 该 表 上 的 触发 器 。 如 果 该 表 没 有 触发 器， 则 将 其 置 成 0。 

O alias: 表 名 或 表 的 别名 。 

Q query_id: 使 用 该 TABLE 对 象 查询 的 id。 

O used _ stat records: 该 表 记 录 数 的 一 个 估计 值 ， 被 查询 优化 器 所 使 用 。 

口 quick_condition_rows: 满足 查询 条 件 的 记录 数 的 估计 值 ， 主 要 在 join 算法 中 使 用 。 

口 db_stat: 能 够 在 该 表 上 执行 的 操作 。 

口 derived_select_number: 如 果 是 派生 表 ， 表 示 表 的 记录 数 。 

口 force_index: 如 果 当 前 查询 中 使 用 了 FORCE INDEX 命 令 指 定 所 用 的 索引 ， 则 该 值 为 true。 

口 force_index_order: 如 果 当 前 查询 中 使 用 了 FORCE INDEX ORDER BY 命令 指定 ORDER BY 使 用 

的 索引 ， 则 该 值 为 true。 

口 force_index_group: 如 果 当 前 查询 中 使 用 了 FORCE INDEX GROUP BY 命令 指定 GROUP BY 使 用 

的 索引 ， 则 该 值 为 true。 

口 key_read 和 no_keyread: 如 果 key_ read 的 值 为 true， 说 明 查 询 优化 器 知道 当前 查询 满足 索 

引 覆 盖 条 件 ， 也 就 是 只 需要 访问 索引 就 能 获取 所 需 的 数据 。no_keyread 的 含义 相反 。 

O created: 如 果 该 值 为 true， 说 明 当 前 表 为 临时 表 。 


T 
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O mem root: 该 对 象 使 用 的 内 存 池 。 

O grant: 该 表 的 权限 信息 。 

D sort: 主要 用 于 group by 和 order by 命令 。 
O mdl_ ticket: 当前 表 的 md1 锁 信息 。 


4.7 小 结 


本 章 中 ， 我 们 介绍 了 MariaDB 中 一 些 基础 的 数据 结构 ， 这 对 想 要 了 解 MariaDB 底 层 机 制 和 想 
自行 阅读 MariaDB 源 代码 的 读者 非常 有 帮助 。 


MariaDB 线 程 池 


我 们 知道 ，MySQL 的 传统 连接 模式 是 每 连接 每 线程 ，MySQL 会 给 每 个 连接 上 来 的 客户 端 分 
配 一 个 单独 的 线程 ， 该 线程 负责 处 理 该 客户 端 发 来 的 所 有 命令 。 随 着 MySQL 的 连接 数 越 来 越 多 ， 
MySQL 的 线程 数 也 会 相应 地 上 升 。MySQL 默 认 的 最 大 连接 数 是 1024， 也 就 是 说 当 连 接 的 客户 端 
超过 1024 个 之 后 ， 新 来 的 客户 端 将 连接 不 上 MySQL 的 服务 端 。 当 然 ， 可 以 通过 调整 参数 
max_connections 来 提高 MySQL 的 最 大 连接 数 ， 但 这 又 带 来 了 其 他 问题 ， 首先 ， 每 个 线程 会 占用 
一 定 的 系统 资源 , 线程 数 越 多 消耗 的 系统 资源 也 越 多 ; 其 次 , 线程 的 创建 和 销毁 是 有 一 定 开销 的 ; 
最 后 , 也 是 非常 重要 的 一 点 ， 当 线程 数 过 多 时 ,如果 其 中 大 部 分 线程 都 处 于 活跃 状态 ,将 会 导致 
频繁 的 上 下 文 切换 ， 从 而 造成 巨大 的 系统 开销 。 


MariaDB 从 5.1 开 始 引 入 了 线程 池 技 术 来 解决 最 大 连接 数 限制 问题 以 及 过 多 线程 带 来 的 系统 
开销 问题 。 线 程 池 技术 的 本 质 就 是 线程 共用 ， 多 个 连接 之 间 共 享 线程 。 


本 音 的 内 容 主 要 包括 : 


口 线程 池 相 关 的 参数 
口 何 时 使 用 线程 池 
口 线程 池 的 实现 


5.1 线程 池 相 关 的 参数 


随 着 MariaDB 版 本 的 变更 ， 线 程 池 相关 的 实现 也 有 所 改动 ， 线程 池 相关 的 参数 也 相应 地 发 生 
了 变化 。 本 节 中 ,我 们 将 介绍 MariaDB 几 个 版 本 中 的 线程 池 。 


5.1.1 MariaDB 5.1 和 MariaDB 5.3 中 的 线程 池 
MariaDB 5.1 和 MariaDB 5.3 中 的 线程 池 是 静态 的 ， 线 程 池 中 的 线程 数 从 MariaDB 启 动 时 就 是 
固定 的 。 通 过 在 配置 文件 中 设置 thread_pool size 参 数 来 指定 线程 池 中 线程 的 个 数 : 


thread_handling = pool of threads # 线程 模式 
thread pool size = 8 # 线程 池 大 小 
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要 想 使 用 线程 池 ， 除 了 需要 通过 设置 thread_pool size 参 数 来 决定 线程 池 中 线程 的 个 数 外 ， 
还 需要 将 thread_handling 参 数 设置 成 poo1 of_threads( 表示 使 用 线程 池 模 型 )， 该 参数 的 默认 值 
#éone_thread_per_connection, 就 是 传统 的 每 连接 每 线程 模式 , 它 的 男 一 个 可 选 值 为 no_threads， 
表示 使 用 一 个 线程 来 处 理 所 有 连接 ， 这 种 处 理 连接 的 模型 通常 用 于 调试 。 
5.1.2 MariaDB 5.5 和 MariaDB 10.0 中 的 线程 池 

在 MariaDB 5.5 及 以 后 的 版 本 中 ， 线程 池 是 动态 的 ， 线 程 池 中 的 线程 个 数 根据 当前 连接 数 的 
变化 而 在 一 定 范围 内 浮动 MariaDB 的 线程 池 针 对 不 同 的 操作 系统 使 用 了 不 同 的 实现 ,在 Windows 
操作 系统 上 MariaDB 使 用 了 系统 原生 的 线程 池 , 在 类 UNIX 系 统 上 ,MariaDB 实 现 了 自己 的 线程 池 。 
你 可 以 通过 下 列 参 数 来 设置 线程 池 : 


thread_handling = pool of threads # 线程 模式 

thread pool size = 4 H 线程 池 的 分 组 数 
thread_pool_min_threads = 4 # 仅 在 Windows 上 有 效 
thread_pool_max_threads = 16 # 线程 池 的 最 大 线程 数 
thread_pool stall limit = 500 # timer 线 程 的 检查 时 间 间 隔 ， 单 位 为 毫秒 
thread_pool idle timeout = 60 # WOTKkeT 线 程 的 空闲 超时 时 间 ， 单 位 为 秒 
thread_pool_oversubscribe = 3 # 单个 CPU 核心 上 的 “超频 ”线程 数 


下 面 我 们 来 对 这 些 参数 进行 详细 的 说 明 。 

O thread_handling: 和 老 版 本 的 含义 一 致 ， 设 置 为 pool_of threads 表 示 使 用 线程 池 模型 来 

处 理 连 接 。 

Q thread_pool_size: 它 表 示 的 不 再 是 线程 池 中 的 线程 数 ， 而 是 线程 池 的 分 组 个 数 ， 默 认 值 
为 当前 机 器 CPU 的 核心 数 。 在 MariaDB 5.5 和 MariaDB 10.0 中 ， 线 程 池 由 多 个 分 组 组 成 ， 
不 同 的 连接 被 分 配 到 不 同 的 线程 池 分 组 中 处 理 。 实 现 分 组 的 主要 目的 是 为 了 把 每 个 分 组 
对 应 到 每 个 CPU 的 核心 上 ， 保 证 每 个 分 组 中 都 有 一 个 活跃 的 线程 在 运行 ， 从 而 达到 充分 


利用 CPU 资源 的 目的 。 
O thread_pool_min threads: 该 参数 只 有 在 Windows 系 统 上 才 有 效 ， 表示 线程 池 中 最 少 必须 
有 和 多少 个 线程 。 


口 thread_pool max_threads: 该 参数 用 于 控制 线程 池 的 最 大 线程 数 ， 防 止 线 程 池 无 限 增长 。 

O thread_pool_stall_limit: 在 MariaDB 的 线程 池 中 有 一 个 单独 的 timer 线 程 , 用 于 定期 检查 
线程 池 中 是 否 有 “停滞 ”的 分 组 以 及 定期 清理 超时 的 客户 端 连接 等 工作 。 该 参数 表示 的 
是 多 和 久 可 以 算 作 停滞 。 我 们 将 在 $.3 节 中 详细 分 析 该 参数 是 如 何 影响 线程 池 的 行为 的 。 

O thread_pool idle timeout: 当 一 个 worker 线 程 持续 空 闪 了 一 段 时间 后 会 自动 退出 ， 以 保 
证 在 业务 空闲 时 减少 线程 池 中 的 线程 数 。 该 参数 的 单位 为 秒 。 用 户 可 以 根据 自己 的 业务 
场景 来 调整 该 参数 的 值 ， 如 果 设 置 得 太 短 ， 将 会 导致 线程 频繁 地 退出 与 创建 ; 如果 设置 
得 太 长 ， 将 会 导致 线程 池 中 的 线程 数 长 时 间 不 会 下 降 。 

Q thread_pool_oversubscribe: 该 参数 用 于 控制 单个 CPU 核心 上 “超频 ”的 线程 数 ， 如 果 单 

个 CPU 核心 上 活跃 的 线程 数 为 1， 我 们 认为 它 没 有 “超频 "。MariaDB 将 线程 池 设 计 为 由 多 
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个 分 组 组 成 ， 每 个 线程 池 分 组 对 应 于 一 个 CPU 的 核 〈 默 认 配置 )， 如 果 能 够 保证 每 个 线程 
池 分 组 活跃 的 线程 数控 制 在 一 定 范围 内 , 就 能 很 好 地 利用 系统 资源 。 该 参数 的 默认 值 是 3， 
尽量 不 要 修改 该 参数 。 


5.2 ” 何 时 使 用 线程 


在 有 大 量 短 查 询 的 业务 场景 下 , 在 每 连接 每 线程 的 模式 中 , 一 方面 过 多 的 连接 数 很 容易 到 达 
连接 数 最 大 值 的 限度 ， 男 一 方面 过 多 的 活跃 线程 导致 频繁 的 上 下 文 切换 带 来 不 可 忽视 的 系统 开 
销 。 在 这 种 情况 下 ,线程 池 能 够 很 好 地 发 挥 作 用 。 由 于 都 是 短 查询 ， 不 会 有 某 个 连接 长 时 间 占 用 
线程 池 中 的 线程 ,所 以 几乎 不 会 影响 客户 端 请 求 的 响应 时 间 , 并 且 随 着 连接 数 的 增加 , 线程 池 中 
的 线程 数 都 被 控制 在 一 定 范 围 内 ， 减 轻 了 系统 的 压力 。 

但 在 有 大 量 长 查询 的 业务 场景 下 不 适合 使 用 线程 池 , 在 这 种 场景 下 ,由 于 长 查询 占据 了 线程 
池 的 所 有 线程 ， 导 致 线程 池 出 现 效 率 低 下 的 情况 ,客户 端 甚至 不 能 进行 连接 。 当 然 ， 你 可 以 通过 
配置 extra_port 参 数 来 配置 每 连接 每 线程 模式 的 额外 端口 ， 用 户 可 以 使 用 该 端口 进行 连接 。 


5.3 ”线程 池 的 实现 


本 节 中 ， 我 们 从 源 代码 的 角度 来 分 析 MariaDB 的 线程 池 是 如 何 工 作 的 ， 这 里 我 们 参考 的 是 
MariaDB 10.0 的 实现 ， 它 与 MariaDB 5.5 中 线程 池 的 实现 区 别 不 是 很 大 。 

图 5-1 很 好 地 展示 了 线程 池 的 整体 结构 。 线 程 池 由 多 个 分 组 组 成 ,每 个 分 组 有 一 个 任务 队列 ， 
用 于 存储 待 处 理 的 任务 。listener 线 程 监听 当前 分 组 中 的 所 有 连接 ,将 需要 处 理 的 连接 添加 到 任 
务 队 列 中 ，worker 线 程 循环 处 理 任务 队列 中 的 任务 。 此 外 ， 线 程 池 中 还 包含 一 个 timer 线 程 ， 用 
于 检查 分 组 是 否 处 于 “停滞 ”状态 以 及 定期 清理 过 期 的 客户 端 连接 。 

MairaDB 线 程 池 
线程 组 1 线程 组 2 


listener 线程 (监听 线程 ) listener 线程 (监听 线程 ) 


worker 线 程 (工作 线程 1) worker 线 程 (工作 线程 1) 
worker 线 程 (工作 线程 2) worker 线 程 (工作 线程 2) 


wh, 
o 
Optinmer 线 程 〈 定 时 线程 


图 5-1 ”线程 池 模 型 
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5.3.1 ”线程 池 相 关 的 数据 结构 


首先 ， 我们 来 看 一 下 线程 池 相 关 的 几 个 数据 结构 的 定义 。 


1. connection t 


结构 体 connection_t 代 表 客 户 端的 连接 ， 其 中 包含 了 客户 端 连接 的 所 有 信息 : 


// sql/threadpool unix.cce 


struct connection +t // 
{ 
THD *thd; // 
thread_group t *thread_group; // 
connection _t *next_in_queue; // 
connection_t **prev_in_queue; 
ulonglong abs_wait_timeout; // 
bool logged_in; // 
bool bound to poll descriptor; // 
bool waiting; 


B 


下 面 给 出 了 connection t 中 各 个 成 员 的 具体 含 


代表 一 个 客户 六 的 连接 


连接 的 所 有 上 下 文 ， 包 括 网 络 套 接 字 等 
所 属 的 线程 池 分 组 
next_in_queue 和 prev_in_queue 用 于 实现 队列 


客户 端的 超时 时 间 
该 连接 是 否 进行 了 登录 验证 
该 连接 是 否 加 入 到 了 监听 poll 


义 。 


池 分 组 。 


中 使 用 到 。 


Oth: 包含 了 连接 的 所 有 上 下 文 信息 ， 包 括 该 连接 的 网 络 套 接 字 等 。 
O thread_group: MariaDB 的 线程 池 被 设计 成 包含 多 个 分 组 ， 该 成 员 指向 该 连接 所 在 的 线程 


口 next_in_queue: 指向 下 一 个 connection_t 结 构 。 
口 prev_in_queue: 和 next_in_queue 一 起 实现 connection t 的 队列 , 在 结构 connection queue t 


口 abs_wait_timeout: 客户 端的 超时 时 间 。 在 后 面 介绍 MariaDB 线 程 池 timer 线 程 的 时 候 会 讲 
到 ，timer 线 程 会 定期 清理 掉 超 时 的 客户 端 。 


口 logged_in: 如 果 该 值 为 true， 表 示 该 连接 已 经 进行 了 登录 验证 ; 如 果 为 false， 说 明 该 连 
接 还 没有 进行 登录 验证 ， 在 执行 该 连接 发 来 的 命令 前 需要 进行 登录 验证 。 
Q bound_to_poll_descriptor: 每 个 线程 池 分 组 内 部 的 所 有 连接 都 会 被 加 入 到 分 组 对 应 的 
pol1 内 进行 网 络 事件 的 监听 。 如 果 该 参数 为 true, 说 明 该 连接 的 网 络 套 接 字 已 经 加 入 到 了 


pol1 内 进行 监听 。 在 Linux 操 作 系 统 上 ， 使 用 的 是 epol1 来 进行 网 络 事件 的 监听 。 


O waiting: 如 果 该 参数 为 true， 表 示 该 连接 正在 等 待 锁 、 条 件 变量 、IO 的 完成 ， 等 等 。 


2. thread_group t 


结构 thread_group_t 代 表 了 线程 池 中 的 一 个 分 组 ， 其 定义 如 下 : 
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// sql/threadpool unix.cc 


struct thread group t 

{ 
mysql_mutex_t mutex; 
connection queue t queue; 
worker list t waiting threads; 
worker thread t *listener; 
pthread attr t *pthread attr; 
int pollfd; 
int thread count; 
int active thread count; 
int connection count; 
int io event count; 


int queue event count; 


/ 


N 


代表 线程 池 的 一 个 分 组 


// 任务 队列 

// 睡眠 的 WoTkeT 线 程 列表 

// listener 线 程 

// 创建 线程 的 属性 

// poll 的 描述 符 

// 当前 分 组 中 的 线程 数 

// 当前 分 组 中 的 活跃 线程 数 

// 当前 分 组 中 包含 的 连接 数 

/* 该 线程 池 分 组 在 这 个 时 间 段 的 网 络 事件 数 ，timer 线 程 会 
使 用 该 信息 判断 一 个 分 组 是 否 处 于 “停滞 ”状态 */ 

/* 该 线程 池 分 组 在 这 个 时 间 段 消费 的 任务 数 ，timer 线 程 会 
使 用 该 信息 判断 一 个 分 组 是 否 处 于 “停滞 ”状态 */ 


ulonglong last thread creation time; // 最 近 一 次 创建 线程 的 时 间 


int shutdown pipe[2]; 
bool shutdown; 
bool stalled; 

J; 


// 用 于 关闭 线程 池 分 组 
// true 代 表 关 闭 
// true 代 表 当 前 线程 池 分 组 处 于 “停滞 ”状态 


下 面 列 出 了 thread_group t 中 各 个 成 员 的 含义 。 


O mutex: 由 于 thread_group_t 的 成 员 会 被 多 个 线程 操作 ， 所 以 必须 有 锁 保护 。 
O queue: 线程 池 分 组 内 的 待 处 理 任 务 会 被 加 入 到 该 队列 中 ， 等 待 worker 线 程 处 理 。 
口 waiting threads: 当 worker 线 程 处 理 完 任务 后 ， 如 果 任 务 队列 没有 更 多 的 任务 ，worker 


线程 会 进入 睡眠 状态 ， 进 入 用 


E 卢 状态 的 worker 线 程 会 被 加 入 到 waiting_threads 中 ， 等 待 


有 新 的 任务 到 来 时 被 唤醒 ,或 者 由 于 超时 而 自动 退出 。 


的 网 络 事件 进行 监听 。1listen 


口 pthread_attr: 我 们 介绍 的 线程 池 版 本 是 针对 MariaDB 10.0 的 , 该 版 本 的 线程 池 是 动态 的 ， 
所 以 在 运行 时 会 有 线程 退出 和 创建 。pthread_attr 保 存 了 创建 线程 时 所 需要 的 线程 属性 。 
口 pollfd: 线程 池 分 组 中 所 有 连接 的 网 络 套 接 字 都 会 被 加 入 到 pol1 中 , 用 来 监听 连接 的 网 络 
事件 ，pollfd 就 是 该 po11 的 描述 符 。 例 如 ， 在 Linux 平 台 上 ， 使 用 的 是 epol1， 那 么 pollfd 


O listener: 在 正常 情况 下 ,每 个 线程 池 分 组 内 部 都 有 一 个 listener 线 程 对 组 内 的 所 有 连接 


er 成 员 指向 listener 线 程 。 


就 是 epoll_create 函 数 返 回 的 描述 符 。 


口 thread_count: 该 线程 池 分 组 
该 worker 线 程 是 处 于 活跃 状态 


线程 。 


中 的 总 线程 数 ， 包 括 1istener 线 程 和 所 有 worker 线 程 ， 不 管 
还 是 睡眠 状态 。 


口 active_thread_count: 活跃 的 worker 线 程 数 ， 也 就 是 正在 消费 任务 队列 中 任务 的 worker 


口 connection_count: 当前 线程 池 分 组 的 连接 数 。 
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口 io_event_count: 这 个 时 间 段 监听 到 的 网 络 事件 数 。timer 线 程 会 使 用 该 变量 来 判断 线程 
池 分 组 是 否 处 于 “停滞 ”状态 ， 这 在 5.3.7 节 中 会 进一步 介绍 。 

口 queue_event_count: 这 个 时 间 段 worker 线 程 消费 的 任务 数 。timer 线 程 会 使 用 该 变量 来 判 
断 线 程 池 分 组 是 否 处 于 “停滞 ”状态 ， 这 在 5.3.7 节 中 会 进一步 介绍 。 

口 last_thread_creation_time: 最 近 一 次 创建 线程 的 时 间 。 

口 shutdown_pipe: 用 于 关闭 线程 池 分 组 。 

口 shutdown: 如 果 为 true， 表 示 该 线程 池 分 组 已 经 关闭 。 

O stalled: 如 果 为 true， 表 示 该 线程 池 分 组 处 于 “停滞 ”状态 ， 这 在 5.3.7 节 中 会 进一步 介绍 。 


3. worker thread t 
结构 worker_thread_t 代 表 一 个 worker 线 程 或 者 一 个 listener 线 程 ， 其 定义 如 下 : 
// sql/threadpool unix.cc 


struct worker thread t 


{ 
ulonglong event count; // 该 Worker 线 程 处 理 的 请 求 数 
thread group t *thread_group; // 该 Worker 线 程 所 在 的 线程 池 分 组 
worker thread t *next in list; // next in 1ist 和 prev_in list 实 现 链表 


worker thread t **prev in list; 


mysql cond t cond; 
bool woken; // true 表 示 线 程 处 于 唤醒 状态 
J 


下 面 给 出 了 worker_thread_t 各 个 成 员 的 含义 。 


口 event_count: 如 果 worker_thread_t 代 表 的 是 一 个 worker 线 程 ,event_count 则 表示 该 worker 
线程 处 理 的 总 请 求 数 。 

口 thread_group: 该 线程 所 在 的 线程 池 分 组 。 

O next_in_list#llprev_in_list: 用 于 实现 链表 ， 在 worker_list_t 中 使 用 。 

O cond: 事件 通知 的 条 件 变 量 。 

O woken: 如 果 为 true， 表 示 线 程 处 于 唤醒 状态 。 


5.3.2 ”线程 池 的 初始 化 


接 下 来 ,我 们 从 mysqld 启 动 时 线程 池 的 初始 化 作为 切入 点 ,按照 程序 的 执行 流 来 分 析 MariaDB 
线程 池 的 工作 机 制 。mysqld 的 人 口 函 数 是 sqymysqld.cc 中 的 main 函 数 ， 该 函数 进行 一 系列 的 初始 
化 工作 ， 其 中 包括 调用 tp_init 函 数 对 线程 池 进 行 初始 化 ， 然 后 调用 handle_connections_sockets 
函数 循环 处 理 新 来 的 连接 。 
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tp_init 函 数 的 主要 功能 是 对 MariaDB 的 线程 池 进 行 初始 化 ， 其 代码 如 下 
// sqlthreadpool_unix.cc 


1. bool tp_init() 


2. { 
// Athread_group tõi F 
3. all_groups = (thread_group t *)my_malloc(sizeof(thread_group_ t) * threadpool_size, 
4. MYF (MY_WME |MY_ZEROFILL)); 
5. if (!all_groups) 
6. { 
7. threadpool_size= 0; 
8. DBUG_RETURN(1); 
9. } 
// 初始 化 
10. threadpool_started= true; 
11. scheduler _init(); 
12. for (uint i= 0; i < threadpool_size; i++) 
13. { 
14. // xtthread_group taj Rik RAMAE 
15. thread_group_init(&all_groups[i], get_connection_attrib()); 
16. } 


// 为 各 个 线程 池 分 组 分 配 poll 的 描述 符 
17. tp_set threadpool size(threadpool size); 


18. if(group_count == 0) 

19. { 

20. sql_print_error("Can't set threadpool size to %d",threadpool_size); 
21. DBUG_RETURN(1); 

22. } 


// 开局 timeT 线 程 ， 此 时 线程 池 中 仅 有 的 一 个 线程 


23 . pool timer.tick_interval= threadpool stall limit; 
24. start_timer(&pool timer) ; 

25. DBUG RETURN(0) 

26.} 


第 3 行 到 第 9 行 代码 为 线程 池 各 个 分 组 分 配 内 存 ，all_groups 是 一 个 全 局 变量 , 管理 线程 池 的 
所 有 分 组 。 

第 10 行 到 第 22 行 代码 用 于 对 线程 池 分 组 进行 初始 化 , 并 且 为 每 个 线程 池 分 组 创建 一 个 pol1 描 
述 符 ， 用 于 监听 线程 池 分 组 内 所 有 连接 的 网 络 事件 。 

第 23 行 到 第 25 行 代码 用 于 开启 timer 线 程 。 至 此 ， 线 程 池 的 初始 化 工作 已 经 完成 。 目 前 ， 线 
程 池 中 只 有 一 个 线程 ， 那 就 是 timer 线 程 。 
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5.3.3 ”添加 连接 到 线程 ; 


上 面 我 们 已 经 介绍 了 mysqld.cc 的 main 函 数 在 执行 完 一 系列 的 初始 化 后 ,会 进入 handle_ 
connections_sockets 函 数 , 该 函数 循环 监听 服务 端口 (3306 ) 的 事件 , 通过 调用 tp_add_connection 
函数 将 新 来 的 连接 加 入 到 线程 池 中 (如 果 我 们 配置 的 是 线程 池 模 式 )。 


下 面 给 出 了 tp_add_connection 了 水 数 的 定义 : 


// sql/threadpool unix.cce 


1. 
2. 
3. 
4 


uw 


25. 


26. 
27. 


void tp add connection(THD *thd) 


{ 


-} 


threads .append(thd) ; 
mysql _mutex_unlock(&LOCK_ thread count); // 解除 之 前 获取 的 锁 


connection t *connection= alloc connection(thd); 
if (connection) 


{ 
// 将 当前 连接 分 配 到 对 应 的 线程 池 分 组 中 
thd->event_scheduler.data= connection; 
thread_group t *group= &all_groups[thd->thread_id%group_count]; 
connection->thread_group=group; 
mysql_mutex_lock(&group->mutex) ; 
group->connection_count++; 
mysql_mutex_unlock(&group->mutex) ; 
// 将 连接 加 入 到 任务 队列 中 ， 如 果 当 前 分 组 没有 活路 的 线程 ， 唤 醒 空闲 的 线程 进行 工作 或 者 创建 新 的 
// 线程 处 理 任务 
queue_put(group, connection); 
} 
else 
{ 
threadpool_remove_connection(thd) ; 
} 


DBUG_VOID_RETURN; 


.Static void queue_put(thread_group t *thread_group, connection_t *connection) 


-{ 


mysql_mutex_lock(&thread_group->mutex) ; 


// 将 新 来 的 连接 加 入 到 任务 队列 中 
thread_group->queue.push_back(connection) ; 


// 如 果 当 前 线程 池 分 组 中 没有 活跃 的 线程 ， 则 唤醒 空闲 的 线程 或 者 创建 新 的 线程 处 理 任务 
if (thread group->active thread count == 0) 
wake_or_create_thread(thread_group) ; 
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28. mysql_mutex_unlock(&thread_group->mutex) ; 


29. DBUG_VOID_RETURN 
30.} 


第 5 行 代码 为 新 来 的 连接 创建 了 一 个 connection t 对 象 。 


第 8 行 到 第 13 行 代码 将 该 连接 加 入 到 对 应 的 线程 池 分 组 中 ， 并 且 增 加 该 线程 池 分 组 总 连接 数 
的 计数 。 


第 14 行 代码 调用 queue_put 将 该 连接 加 入 到 任务 队列 中 ， 让 线程 池 分 组 中 的 worker 线 程 去 处 
理 。 前 面 我 们 已 经 提 到 ， 当 线程 池 初 始 化 好 之 后 ， 内 部 只 有 一 个 timer 线 程 ， 没 有 listener 线 程 
或 者 worker 线 程 , 如 果 这 是 我 们 接收 的 第 一 个 连接 ,那么 当代 码 执行 到 queue_put 函 数 的 第 27 行 时 ， 
会 为 该 线程 池 分 组 新 建 一 个 worker 线 程 处 理 这 个 新 来 的 连接 。 


5.3.4 ”worker 线 程 


worker 线 程 的 主要 任务 是 处 理 任务 队列 中 待 处 理 的 任务 。 下 面 我 们 给 出 worker 线 程 的 入 口 卫 
数 worker_main 的 定义 ， 本 节 中 我 们 将 按照 代码 的 执行 流程 来 分 析 worker 线 程 是 如 何 工作 的 : samj 


// sqlthreadpool_unix.cc 


1. static void *worker_main(void *param) 


2. { 
// 初始 化 
3. worker_thread_t this thread; 
4. pthread detach this thread(); 
5. my_thread_init(); 
6. thread_group_t *thread_group = (thread_group_t *)param; 
7. mysql_cond_init(key_worker_cond, &this_thread.cond, NULL); 
8. this_thread.thread_group= thread_group; 
9. this_thread.event_count=0; 
// 循环 处 理 任 务 
10. for(;;) 
11. 
12. connection_t *connection; 
13. struct timespec ts; 
14. set_timespec(ts,threadpool idle timeout); 
15. connection = get_event(&this_thread, thread_group, &ts); 
16. if (!connection) 
17. break; 
18. this_thread.event_count++; 


19. handle_event (connection) ; 
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20. } 


// 线程 退出 


21. mysql_cond destroy(&this thread.cond); 


22. bool last_thread; 

23. mysql_mutex_lock(&thread_group->mutex) ; 

24. add_thread_count(thread_group, -1); 

25. last_thread= ((thread_group->thread_count == 0) && thread_group->shutdown) ; 
26. mysql_mutex_unlock(&thread_group->mutex) ; 


// 如 果 是 分 组 的 最 后 一 个 线程 ， 并 且 线 程 池 分 组 的 shutdown 标 志 是 开启 的 ， 则 销毁 线程 池 分 组 


27. if (last_thread) 


28. thread_group_destroy(thread_group); 


29. my_thread end(); 
30. return NULL; 
31.} 


第 3 行 到 第 9 行 代 码 是 一 些 初 始 化 工作 。 


第 4 行 代码 将 当前 线程 


的 状态 设置 成 detached， 这样 当 线程 退出 时 , 会 自动 释放 所 有 的 资源 。 


第 10 行 到 第 20 行 代码 是 处 理 任务 的 主要 流程 。 首 先 调 用 get_event 函 数 获取 待 处 理 的 任务 ， 
然后 调用 handle_event 函 数 处 理 任 务 ， 处 理 完 之 后 继续 获取 任务 ， 依 次 循环 执行 。handle_event 


函数 对 于 没有 登录 的 连接 会 进行 登录 验证 , 然后 才 会 将 该 连接 的 网 络 套 接 字 加 入 到 poll 中 ,， 以便 
监听 该 连接 的 后 续 命 令 ; 对 于 已 经 登录 的 连接 ， 读 取 网 络 数据 ， 执 行 客户 端 发 送 过 来 的 命令 。 


第 16 行 代码 中 ， 当 get 


后 半 部 分 ， 退 出 worker 线 程 


_event 获 取 的 待 处 理 任务 返回 空 时 ， 跳 出 任务 处 理 循 环 ， 执 行 函数 的 


Eo 


第 24 行 代码 ， 将 当前 线程 池 分 组 的 总 线程 数 减 1。 


第 25 行 代码 ， 判 断 当 育 


1 线程 是 否 是 当前 分 组 的 最 后 一 个 线程 。 


第 27 到 第 28 行 代码 中 ， 如 果 是 分 组 中 的 最 后 一 个 线程 ， 并 且 线程 池 分 组 的 snutdown 标 志 ; 
true， 则 执行 销毁 线程 池 分 组 的 操作 。 


5.3.5 get_eventey ay 


get_event 函 数 负责 从 任务 队列 获取 一 个 任务 ， 返 回 给 worker 线 程 处 理 。 接 下 来 我 们 看 一 下 
get_event 冰 数 是 如 何 获取 任务 的 ， 在 什么 情况 下 会 返回 空 ， 从 而 导致 worker 线 程 退 出 : 


// sqlthreadpool_unix.cc 


1. connection t *get_event(worker_thread_t *current_thread, 
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un 上 ww Nb 


10. 
11. 
12. 


13. 
14. 


15. 
16. 
17. 
18. 


19. 
20. 
21. 
22. 
23. 


24. 


25. 
26. 
27. 
28. 
29. 


thread_group t *thread_group, struct timespec *abstime) 


connection_t *connection = NULL; 
int err=0; 


// 需要 锁 保护 ， 因 为 要 对 thread_group 的 成 员 进 行 操作 
mysql_mutex_lock(&thread_group->mutex) ; 
DBUG_ASSERT(thread_group->active_thread_count >= 0); 


for(;;) 
{ 
/* 
如 果 当 前 线程 池 分 组 的 活跃 线程 过 多 ,会 导致 “超频 ” 
参数 thread_pool oversubscribe 在 此 发 挥 作用 
*/ 
bool oversubscribed = too many threads(thread group); 
if (thread_group->shutdown) 
break; 


if (!oversubscribed) 


{ 
// 如 果 任 务 队 列 中 有 任务 ， 直 接 获取 并 返回 
connection = queue_get(thread_group) ; 
if (connection) 

break; 
} 
/* 
如 果 当 前 线程 池 分 组 没有 listener 线 程 ， 让 当前 worker 线 程 成 为 listener 线 程 ， 
监听 当前 线程 池 分 组 的 网 络 事件 

*/ 

if(!thread_group->listener) 

{ 
thread_group->listener= current_thread; 
thread_group->active_thread_count--; 
mysql_mutex_unlock(&thread_group->mutex) ; 
// 监听 当前 线程 池 分 组 的 事件 
connection = listener(current_thread, thread_group); 
mysql_mutex_lock(&thread_group->mutex) ; 
thread_group->active_thread_count++; 
thread_group->listener= NULL; 

break; 

} 

/* 


WOoTKkeT 线 程 在 进入 睡眠 状态 之 前 会 党 试看 一 下 pol1 中 有 没有 事件 需要 处 理 ， 
timeout 参 数 设置 成 0 表示 如 果 poll 中 没有 事件 立刻 返回 ， 不 等 待 
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*/ 
30. if (!oversubscribed) 
31. { 
32. native event nev; 
33. if (io_poll_wait(thread_group->pollfd,&nev,1, 0) == 1) 
34. { 
35. thread_group->io_event_count++; 
36. connection = (connection_t *)native_event_get_userdata(&nev) ; 
37. break; 
38. } 
39. } 
// 进入 睡眠 状态 ， 把 当前 线程 加 入 睡眠 线程 列表 中 
40. current_thread->woken = false; 
41. thread_group->waiting threads.push_front(current_thread) ; 
42. thread_group->active_thread_count--; 
// abstime 传 进来 的 是 参数 thread pool idle timeout 的 值 
43. if (abstime) 
44. { 
45. err = mysql_cond_timedwait(&current_thread->cond, &thread_group->mutex, abstime) ; 
45. } 
47. else 
48. { 
49. err = mysql_cond_wait(&current_thread->cond, &thread_group->mutex) ; 
50. } 
/* 
线程 被 唤醒 ， 要 么 是 被 JisteneT 线 程 调 用 Wake thread 了 马 数 唤醒 的 ， 
要 么 是 因为 超时 而 唤醒 的 
*/ 
51. thread_group->active_thread_count++; 
// 非 Wake_ thread 唤醒 的 ， 需 要 自己 从 睡眠 列表 中 删除 
52. if (!current_thread->woken) 
53. { 
54. thread_group->waiting threads. remove(current_thread) ; 
55. } 
/* 
如 果 线 程 是 因为 超时 而 唤醒 的 ， 跳 出 for 循 环 ， 此 时 connection 的 内 容 为 NULL， 
将 会 导致 该 NOTkeT 线 程 退 出 。 
如 果 是 被 1istener 线 程 调用 wake thread 唤醒 的 ， 说 明 有 任务 需要 处 理 ， 获 取 任 务 
*/ 
56. if (err) 
57. break; 
58. } 
59. thread_group->stalled= false; 
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60. mysql_mutex_unlock(&thread_group->mutex) ; 


61. DBUG_RETURN(connection) ; 
62.} 


第 6 行 代码 获取 锁 保 护 ， 这 是 因为 后 续 我 们 会 对 线程 池 分 组 的 成 员 进 行 操作 。 


第 10 行 代码 用 于 判断 当前 线程 池 分 组 的 活跃 线程 数 是 否 太 多 ， 是 否 达 到 了 参数 thread_pool 
oversubscribe 设 定 的 “超频 ”标准 。 


第 11 行 代码 用 于 判断 线程 池 分 组 是 否 处 于 关闭 状态 ， 如 果 是 ， 则 跳出 循环 ， 此 时 变量 
connection 的 值 为 空 ， 将 导致 worker 线 程 退出 。 


第 13 行 到 第 18 行 代码 说 明 , 在 当前 线程 池 分 组 没有 超频 的 情况 下 , 如 果 任 务 队 列 中 有 待 处 理 
的 任务 ， 直 接 获取 并 且 返 回 , 返回 的 任务 会 传 给 handle_event 函 数 处 理 ， 此 处 可 参考 worker_main 
函数 的 第 19 行 。 


如 果 任 务 队列 中 暂时 没有 任务 ,程序 将 继续 往 下 执行 。 第 19 行 到 第 29 行 代码 说 明 ， 如 果 当 前 
的 线程 池 分 组 中 没有 listener 线 程 ， 将 当前 worker 线 程 转变 成 listener 线 程 ， 监 听 当 前 线程 池 分 
组 中 所 有 连接 的 事件 。 如 果 当 前 线程 池 分 组 中 已 经 有 listener 线 程 ， 程序 将 继续 执行 ， 此 时 任务 
队列 中 没有 待 处 理 的 任务 ， 并 且 线 程 池 分 组 也 有 专门 的 listener 线 程 在 监听 可 能 发 生 的 事件 ， 
worker 线 程 接 下 来 即将 进入 睡眠 状态 。 


第 30 行 到 第 39 行 代码 说 明 ，worker 线 程 在 进入 睡眠 状态 之 前 会 尝试 看 看 poll 中 是 否 有 需要 处 
理 的 事件 。 之 后 的 第 40 行 到 第 50 行 代码 说 明 ， 该 worker 线 程 进入 睡眠 状态 等待 有 新 任务 到 来 时 
被 唤醒 或 者 由 于 睡眠 太 久 超时 而 退出 。 


当 程 序 执行 到 第 51 行 时 , 说 明 worker 线 程 被 唤醒 。 可 能 是 由 于 listener 线 程 监听 到 新 的 任务 ， 
需要 worker 线 程 进行 处 理 , 或 者 是 由 于 mysqld 主 线程 接收 到 新 的 连接 , 需要 worker 线 程 进行 处 理 ， 
或 者 是 worker 线 程 睡眠 的 时 间 超 过 了 thread_pool idle timeout 设 定 的 值 主动 醒 来 的 。 对 于 前 面 
两 种 情况 ，worker 线 程 从 任务 队列 中 获取 待 处 理 的 任务 进行 处 理 ; 对 于 后 一 种 情况 ,说 明 目 前 业 
务 比较 空闲 ，worker 线 程 主动 退出 ， 使 线程 池 的 线程 数 下 降 。 


5.3.6 1istener 线 程 


通常 情况 下 ， 每 个 线程 池 分 组 都 有 一 个 单独 的 listener 线 程 用 于 监听 当前 分 组 的 所 有 网 络 
事件 。 

我 们 在 前 面 看 到 ， 当 worker 线 程 发 现任 务 队 列 中 没有 待人 处 理 的 任务 , 并 且 当 前 的 线程 池 分 组 
中 没有 listener 线 程 时 ，worker 线 程 会 调用 listener 函 数 ， 反 身 一 变 ， 成 为 了 listener 线 程 。 下 
面 我 们 通过 分 析 1listener 也 数 的 实现 来 了 解 1istener 线 程 的 主要 工作 : 
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// sql/threadpool unix.ce 


1. static connection t * listener(worker thread t *current thread, thread group t *thread group) 
2 

3. DBUG_ENTER("listener"); 

4 connection t *retval= NULL; 


5. for(;;) 
6. { 
7. native event ev[MAX_EVENTS]; 
8. int cnt; 
9. if (thread_group->shutdown) 
10. break; 
// 监听 事件 
11. cnt = io poll_wait(thread_group->pollfd, ev, MAX_EVENTS, -1); 
12. if (cnt <=0) 
13. { 
14. DBUG_ASSERT(thread_group->shutdown) ; 
15. break; 
16. } 
17. mysql_mutex_lock(&thread_group->mutex) ; 
18. if (thread_group->shutdown) 
19. { 
20. mysql_mutex_unlock(&thread_group->mutex) ; 
21. break; 
22. } 
/* 
统计 这 一 时 间 段 新 增 的 事件 数 ， 
timer 线 程 将 使 用 该 数据 判断 线程 池 是 否 处 于 “停滞 ”状态 
*/ 
23. thread_group->io_event_count += cnt; 
/* 
当 监 听 到 网 络 事件 后 ，1listeneT 线 程 根据 任务 队列 的 情况 来 决定 是 参与 处 理事 件 ， 
还 是 将 所 有 的 任务 交 给 worker 线 程 去 处 理 
Wh 
24. bool listener picks event= thread_group->queue.is_empty(); 
25. for(int i=(listener_picks event)?1:0; i < cnt ; i++) 
26. { 
// 将 待 处 理 的 任务 加 入 到 任务 队列 中 
27. connection_t *c= (connection_t *)native_event_get_userdata(&ev[i]); 
28. thread_group->queue.push_back(c); 


29. } 
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30. if (listener_picks event) 
31. { 

// listener 线 程 处 理 第 一 个 事件 ，listener 线 程 转变 成 Worker 线 程 
32. retval= (connection t *)native event get userdata(&ev[0]); 
33. mysql_mutex_unlock(&thread_group->mutex) ; 
34. break; 
35. } 


// 如 果 当 前 线程 池 分 组 没有 活跃 的 Worker 线 程 ， 则 唤醒 或 者 新 建 一 个 WoTkeT 线 程 进行 工作 


36. if(thread_group->active_thread_count==0) 
37. { 

38. if(wake_thread(thread_group)) 

39. { 

40. if(thread_group->thread_count == 1) 
41. { 

42. create_worker(thread_group) ; 
43. } 

44. } 

45. } 

46. mysql_mutex_unlock(&thread_group->mutex) ; 
47. } 


48. DBUG_RETURN(retval) ; 


listener 线 程 的 核心 任务 在 代码 的 第 11 行 , 用 于 监听 线程 池 分 组 中 所 有 连接 的 事件 。 在 Linux 
ABP, PABCio poll wait 就 是 对 epoll wait 函数 的 封装 。 


第 23 行 代码 说 明 ， 当 监听 到 事件 时 ， 将 监听 到 的 事件 数 统计 到 线程 池 分 组 的 io_event_count 
中 去 ， 该 变量 统计 的 是 这 一 时 间 段 该 线程 池 分 组 监听 到 的 网 络 事件 数 ，timer 线 程 将 会 使 用 该 统 
计数 据 来 评估 该 线程 池 分 组 是 否 处 于 “停滞 ”状态 。 


普通 的 理解 是 ， 当 1istener 线 程 监听 到 事件 时 ， 只 需 将 监听 到 的 事件 加 入 到 任务 队列 中 等 待 
worker 线 程 进行 处 理 ， 然 后 继续 监听 。MariaDB 的 线程 池 稍 微 做 了 一 些 改进 ，listener 线 程 在 监 
听 到 事件 后 ,会 检查 当前 任务 队列 里 是 否 有 任务 ， 如 果 没 有 任务 ，listener 线 程 变 成 worker 线 程 
来 处 理 这 些 任务 , 当 任 务 队列 中 有 未 处 理 的 任务 时 , 则 唤醒 或 者 创建 worker 线 程 来 处 理 这 些 事件 。 
这 部 分 功能 对 应 于 代码 的 第 24 行 到 第 47 行 。 


listener 线 程 为 什么 会 转变 成 worker 线 程 呢 ?” 当 监听 到 事件 时 ，1istener 线 程 从 poll 中 醒 来 ， 
状态 从 waiting 变 成 running， 如 果 1istener 线 程 仅仅 是 将 事件 加 入 到 待 处 理 任 务 队列 中 ， 然 后 唤 
醒 或 者 创建 worker 线 程 来 处 理 这 些 事件 ， 接 着 继续 进入 监听 状态 ， 这 种 机 制 一 方面 是 没有 很 好 地 
利用 listener 线 程 的 时 间 片 ( 刚刚 从 waiting 状 态 变 为 running 状 态 ， 又 要 变 回 waiting 状 态 ), 5 
一 方面 是 唤醒 或 者 创建 一 个 worker 线 程 来 处 理 任 务 总 是 没有 直接 使 用 当前 线程 处 理 来 得 快 。 为 什 
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么 当 任 务 队 列 不 为 空 时 ，listener 线 程 就 不 会 转换 成 worker 线 程 来 处 理事 件 呢 ”这 是 因为 如 果 任 
务 队列 不 为 空 ， 说 明 目 前 的 网 络 事件 比较 频繁 ， 下 一 次 网 络 事件 可 能 在 很 短 的 时 间 内 就 会 到 来 ， 
为 了 提高 事件 的 响应 速度 ，listener 线 程 会 继续 执行 监听 任务 。 


至 此 ,我们 发 现 MariaDB 线 程 池 是 动态 的 ， 这 个 动态 不 仅仅 表现 为 线程 池 的 线程 数 会 在 一 定 
范围 内 变化 ， 而 且 线 程 池 中 的 listener 线 程 和 worker 线 程 不 是 一 成 不 变 的 ， 在 某 些 情况 下 会 相互 
转换 角色 。 


5.3.7 timer 线程 


MariaDB 的 线程 池 中 存在 一 个 timer 线 程 , 该 线程 的 主要 工作 是 检查 线程 池 分 组 是 否 处 于 “ 停 
状态 以 及 定期 清理 掉 超 时 的 客户 端 连 接 。 


timer 线 程 的 入口 函数 是 timer_ thread， 其 代码 如 下 所 示 : 


ye 


// sqi/threadpool_unix.cc 


1. static void *timer_thread(void *param) 
2. { 
3. uint i; 
4 pool timer 七 *timer=(pool timer 七 *)param; 
5. my thread init(); 
6. DBUG_ENTER("timer thread"); 
7. timer->next_timeout_check= ULONGLONG_MAX; 
8. timer->current_microtime= microsecond_interval_timer(); 
9. for(;;) 
10. 
11. struct timespec ts; 
12. int err; 
// 定时 器 
13. set_timespec_nsec(ts, timer->tick_interval*1000000) ; 
14. mysql_mutex_lock(&timer->mutex) ; 
15. err= mysql_cond_timedwait(&timer->cond, &timer->mutex, &ts); 
16. if (timer->shutdown) 
17. { 
18. mysql_mutex_unlock(&timer->mutex) ; 
19. break; 
20. } 
// 定期 执行 以 下 任务 
21. if (err == ETIMEDOUT) 
22. { 


23. timer->current_microtime= microsecond_interval_timer(); 
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// 检查 线程 池 分 组 是 否 处 于 “停滞 ”状态 


24. for (i= 0; i < threadpool_size; i++) 
25. { 

26. if(all_groups[i].connection_count) 
27. check_stall(&all_groups[i]); 
28. } 


// ARRET EP 5g EAE 


29. if (timer->next_timeout_check <= timer->current_microtime) 
30. timeout_check(timer); 

31. } 

32. mysql_mutex_unlock(&timer->mutex); 

33. } 


34. mysql_mutex_destroy(&timer->mutex); 
35. my_thread_end(); 

36. return NULL; 

37.} 


38.void check_stall(thread_group_t *thread_group) // 检查 线程 池 分 组 是 否 处 于 “停滞 ”状态 
39.{ 
40. if (mysql_mutex_trylock(&thread_group->mutex) != 0) 


A | 
// 正在 执行 一 些 操作 ， 不 要 打扰 
42. return; 
43. } 
/* 


没有 1istener 线 程 ， 并 且 从 本 次 检查 到 上 次 检查 这 段 时 间 ， 该 线程 池 分 组 没有 网 络 事 件 ， 
可 能 由 于 listener 线 程 正 在 执行 某 个 长 查询 ， 需 要 唤醒 或 启动 一 个 WoTkeT 线 程 (转化 成 listener) 


*/ 
44. if (!thread_group->listener && !thread_group->io_event_count) 
45. { 
46. wake_or_create_thread(thread_group); 
47. mysql_mutex_unlock(&thread_group->mutex) ; 
48. return; 
49. } 


// 重 置 统计 变量 io_event_count 
50. thread_group->io_event_count= 0; 


// 如 果 队 列 不 为 室 ， 而 且 这 段 时 间 没 有 从 队列 消费 任务 ， 则 唤醒 或 启动 一 个 Worker 线 程 


51. if (!thread_group->queue.is_empty() && !thread_group->queue_event_count) 
52. { 

53. thread_group->stalled= true; 

54. wake_or_create_thread(thread_group); 
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// 重 置 统计 变量 queue_event_count 
56. thread_group->queue_event_count= 0; 


57. mysql_mutex_unlock(&thread_group->mutex) ; 
58.} 


timer 线 程 的 主要 工作 在 第 21 行 到 第 31 行 代码 ， 具 体 如 下 。 


O 定期 检查 线程 池 分 组 是 否 处 于 “停滞 ”状态 。 
口 定期 清理 超时 的 客户 端 连接 。 


第 13 到 第 20 行 代码 用 于 启动 定时 器 。 这 里 MariaDB 使 用 了 条 件 变量 的 超时 机 制 来 实现 定时 器 
功能 。 


第 24 行 到 第 28 行 代码 ， 调 用 check_stal1 函 数 ， 对 线程 池 的 所 有 分 组 进行 检查 ， 检 查 其 是 否 
处 于 “停滞 ”状态 。 


第 29 行 到 第 30 行 代码 用 于 清理 掉 超 时 的 客户 端 连接 。 
如 何 判 断 一 个 线程 池 分 组 是 否 处 于 “停滞 ”状态 呢 ? 我 们 可 以 进入 check _stal1 函 数 一 探 究竟 。 


第 44 行 到 第 49 行 代码 说 明 如 果 当 前 线程 池 分 组 中 没有 listener 线 程 , 并 且 从 上 一 次 检查 到 本 
次 检查 之 间 没 有 监听 到 任何 网 络 事 件 ， 统 计 变 量 io_event_count 为 0， 很 有 可 能 之 前 的 listener 
线程 转变 成 了 worker 线 程 正 在 执行 一 个 长 查询 还 没有 返回 ， 这 个 时 候 需要 唤醒 或 者 创建 一 个 
worker 线 程 ， 该 线程 处 理 完 队 列 中 的 剩余 任务 后 会 自动 变 成 listener 线 程 。 


第 50 行 代码 用 于 重 置 统计 变量 io_event_count。 


第 51 行 到 第 55 行 代码 说 明 , 如 果 任 务 队列 有 待 处 理 的 任务 , 并 且 从 上 一 次 检查 到 本 次 检查 之 
间 没 有 从 任务 队列 消费 任何 的 任务 ， 很 有 可 能 现 有 的 worker 线 程 正在 执行 长 查询 ， 导 致 任务 队列 
发 生 了 拥 蜗 ， 这 个 时 候 需 要 唤醒 或 者 创建 新 的 worker 线 程 来 分 担 处 理 的 压力 。 


第 56 行 代码 用 于 重 置 统 计 变 量 queue_event_count。 


5.4 小结 


本 章 中 ,我 们 详细 介绍 MariaDB 线 程 池 的 工作 原理 以 及 具体 实现 。 线 程 池 由 多 个 分 组 组 成 ， 
每 个 分 组 由 一 个 任务 队列 、 一 个 listener 线 程 以 及 多 个 worker 线 程 组 成 。 线 程 池 中 还 存在 一 个 
timer 线 程 ， 它 用 于 检查 线程 池 分 组 的 状态 以 及 定期 清理 掉 过 期 的 客户 端 连接 。 


线程 池 技术 在 解决 MariaDB 最 大 连接 数 问题 以 及 大 量 线程 带 来 的 系统 开销 方面 发 挥 了 重要 
的 作用 。 


第 6 章 


进 制 日 志 binlog 


Eee \ 同 的 日 志 , 分 别 是 错误 日 志 ( error log )、 普通 日 志 ( general log )、 
MAG (slow log) 以 及 二 进 制 日 志 (binlog )。 错 误 日 志 记 录 了 系统 启动 、 运 行 以 及 停止 过 程 中 
遇 到 的 一 些 问 题 ; 普通 日 志 记 录 了 MariaDB/MySQL 执 行 的 所 有 语句 以 及 语句 开始 执行 的 时 间 等 
言 息 ， 用 户 可 以 选择 ; 隆 地 打开 它 它 ; 慢 日 志 记 录 了 MariaDB/MySQL 所 有 慢 查 询 的 相关 信息 ; NS 
进 制 日 志 则 以 事件 的 形式 记录 了 MariaDB/MySQL 的 库 表 结 构 以 及 表 数 据 的 所 有 变更 信息 。 本 
中 ， 我 们 将 详细 讲解 二 进 制 日 志 所 涉及 的 一 些 内 容 。 


本 章 的 内 容 主 要 包括 : 


口 简介 

口 binlog 的 使 用 

口 binlog 事 件 

口 清理 binlog 

口 binlog_cache_mngr 结 构 


口 mysqlbinlog 工 具 
口 使 用 binlog 进 行 恢复 


6.1 简介 


binlog 是 记录 所 有 数据 库 表 结构 变更 ( 例如 CREATE、ALTER TABLE... ) 以 及 表 数 据 修改 ( INSERT、 
UPDATE, DELETE... ) 的 二 进 制 日 志 。 


从 宏观 上 来 看 ，binlog 由 一 系列 binlog 文 件 和 一 个 index 文 件 组 成 。 数 据 库 的 所 有 变更 信息 以 事 
件 的 形式 记录 在 binlog 文 件 中 ，index 文 件 记录 了 当前 使 用 了 哪些 binlog 文 件 。 这 里 有 必要 重申 一 下 
binlog 和 binlog 文 件 的 区 别 , binlog 表 示 整 个 binlog 体 系 , 包括 所 有 的 binlog 文 件 和 index 文 件 , 而 binlog 
文件 表示 一 个 记录 了 数据 库 修改 信息 的 具体 文件 。 在 本 书 的 剩余 部 分 ， 我 们 将 延续 这 里 的 定义 。 


binlog 文 件 以 一 个 4 字 节 的 常量 作为 开头 ( 标识 这 是 一 个 binlog 文 件 ), 后 面 跟着 一 系列 的 binlog 
事件 。 对 于 不 同 的 binlog 格 式 ， 相 同 语句 记录 在 binlog 文 件 中 的 事件 也 有 所 不 同 。 
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binlog 不 会 记录 那些 没有 任何 修改 的 语句 ， 例 如 select 和 show 等 查询 命令 ， 你 可 以 通过 查询 
普通 日 志 来 查看 MySQL 执行 过 的 所 有 语句 。 


6.1.1 binlog 的 作用 
binlog 有 两 个 非常 重要 的 功能 : 复制 和 备份 恢复 。 


O 复制 : 在 MariaDB/MySQL 的 主 从 结构 中 , 主 库 的 binlog 记 录 了 主 库 的 所 有 更 改 操 作 , ME 
通过 读 取 主 库 的 binlog， 在 本 地 重 放 获 取 的 binlog， 这 样 从 库 就 拥有 和 主 库 相同 的 数据 ， 
达到 复制 的 目的 。 

O 备份 恢复 : binlog 记 录 了 数据 库 的 所 有 更 改 信 息 ， 所 以 当 MariaDB/MySQL 发 生 朋 演 的 时 
修 ， 能 够 以 最 近 备份 点 作为 起 点 ， 然 后 执行 在 备份 点 之 后 产生 的 binlog 中 的 所 有 事件 ， 
实现 数据 库 最 大 可 能 的 恢复 。 


除了 上 面 介 绍 的 两 个 作用 外 ，binlog 对 于 事务 存储 3 引擎 的 崩 演 恢复 也 有 非常 重要 的 作用 。 在 开 
启 binlog 的 情况 下 ，MariaDB/MySQL 将 采用 事务 的 两 阶段 提交 协议 。 当 MariaDB/MySQL server 或 者 
ASAE ARTE, 事务 在 存储 引擎 内 部 的 状态 可 能 为 prepared 和 commit 两 种 。 对 于 prepared 状 态 的 事 
务 ， 是 进行 提交 操作 还 是 进行 回 滚 操作 ,这 时 需要 参考 binlog: 如 果 事 务 在 binlog 中 存在 , 那么 将 其 
提交 ; 如 果 在 binlog 中 不 存在 ， 那 么 将 其 回 深 ， 这 样 就 保证 了 数据 在 主 库 和 从 库 之 间 的 一 致 性 。 


6.1.2 index 文 件 


为 了 管理 所 有 的 binlog 文 件 ，MariaDB/MySQL 和 额外 创建 了 一 个 base-name.index 文 件 ， 它 按 顺 
序 记 录 了 MariaDB/MySQL 使 用 的 所 有 binlog 文 件 。 如 果 你 想 自 定义 index 文 件 的 名 称 ， 可 以 设置 
--1og-bin-index=file 参 数 。 千 万 不 要 在 mysqld 运 行 的 时 候 手动 修改 index 文 件 的 内 容 ， 这 样 会 使 
mysqld 产 生 混乱 。 图 6-1 演 示 binlog 的 构成 。 


index 文 件 


当前 binlog 文 件 


图 6-1 binlog 的 组 成 
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6.2 binlog 的 使 用 


本 节 中 我 们 将 从 使 用 的 角度 来 介绍 binlog 的 相关 内 容 ， 主 要 包括 如 何 开启 binlog、 如 何 选择 
binlog 的 格式 以 及 binlog 几 个 比较 重要 的 参数 。 


6.2.1 开启 binlog 


如 果 想 要 开启 binlog， 可 以 在 MariaDB/MySQL 的 配置 文件 中 添加 1og-bin[=base-name] 的 配 
置 ， 也 可 以 在 启动 mysqld 的 时 候 携带 --log-bin[=base-name] 参 数 。 如 果 base-name 是 一 个 绝对 路 
径 ， 那 么 MariaDB/MySQL 会 将 你 的 binlog 文 件 存储 在 base-name 指 定 的 文件 夹 下 。 如 果 base-name 
不 是 一 个 绝对 路 径 , 那么 MariaDB/MySQL 会 以 base-name 作 为 前 级 来 命名 你 的 binlog 文 件 , 并 将 其 
存储 在 配置 的 数据 目录 下 。 如 果 没 有 指定 base-name， 那 么 MySQL 会 以 hostname-bin 作 为 binlog 文 
件 的 默认 前 级 ， 其 中 hostname 是 你 的 主机 名 。 如 果 你 指定 的 base-name 含 有 后 级 名 ，MariaDB/ 
MySQL 会 忽略 该 后 级 名 。binlog 文 件 以 一 个 自 增 的 数字 作为 后 级 ， 例 如 my-binlog.000026: 


[mysqld] 
log-bin=base-name # 开 局 binlog， 并 且 指 定 binlog 文 件 名 的 前 缓 


6.2.2 ”选择 binlog 的 格式 


通过 配置 BINLOG_FORMAT 参 数 的 值 ， 可 以 选择 binlog 的 格式 ， 也 可 以 通过 执行 SET GLOBAL 
BINLOG FORMAT="{STATEMENT |RON| MIXED}" 命 令 在 MariaDB/MySQL 运 行 的 时 候 动 态 更 改 binlog 的 格 
式 。 参 数 BINLOG_FORMAT 有 3 个 可 选 的 值 : STATEMENT、ROW 和 MIXED， 分 别 代表 3 种 不 同 的 binlog 格 式 : 


[mysqld] 
BINLOG_FORMAT=ROW # 指 定 binlog 的 格式 为 ROW 


1. binlog 的 3 种 格式 
binlog 的 3 种 格式 如 下 所 示 。 


口 STATEMENT: 顾名思义 ，STATEMENT 格 式 的 binlog 记 录 的 是 数据 库 上 执行 的 原生 SQL 语句 。 

O ROW: 这 种 格式 的 binlog 记 录 的 是 数据 表 的 行 是 怎样 被 修改 的 。 

O MIXED: 如 果 设 置 了 这 种 格式 ，MariaDB/MySQL 会 在 一 些 特定 的 情况 下 自动 从 STATEMENT 
格式 切换 到 ROW 格式 。 例 如 ， 包 含 uuid 等 不 确定 性 函数 的 语句 ， 引 用 了 系统 变量 的 语句 ， 
等 等 。 

关于 binlog 格 式 ， 有 个 容易 混淆 的 地 方 ， 那 就 是 binlog 文 件 总 是 由 一 系列 binlog 事 件 组 成 的 ， 
对 数据 库 进行 同样 的 修改 时 ， 如 果 设 置 的 binlog 格 式 不 同 ， 则 仅仅 是 记录 的 事件 类 型 不 同 ， 并 不 
是 binlog 的 “格式 ”发 生 了 什么 变化 。 通 常情 况 下 ， 在 MariaDB/MySQL 运 行 的 时 候 改 变 binlog 的 
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格式 是 可 行 的 (通过 调用 SET GLOBAL BINLOG FORMAT="{STATEMENT|ROW|MIXED}" 语 句 ， 然 后 退出 当 
前 会 话 ， 重 新 建立 一 个 连接 才 会 生效 )， 但 不 推荐 ， 因 为 某 些 情况 下 会 发 生 错 误 。 例 如 ， 语 句 执 
行 过 程 中 包含 临时 表 ， 因 为 临时 表 只 会 记录 在 STATEMENT 格 式 下 ， 而 在 ROW 格式 下 是 不 会 记录 的 。 


2. 各 种 binlog 格 式 的 优 缺 点 


STATEMENT 格 式 的 显著 优点 就 是 产生 的 binlog 文 件 比 ROW 格式 的 binlog 文 件 小 ， 这 在 使 用 binlog 
文件 备份 数据 库 的 时 候 会 占用 较 小 的 磁盘 空间 。 由 于 STATEMENT 格 式 的 binlog 记 录 的 是 原生 SQL 语 
AJ, 所 以 可 以 通过 mysqlbinlog 工 具 很 容易 读 懂 其 中 的 内 容 。 但 对 于 不 确定 性 的 事件 , 使 用 STATEMENT 
格式 是 有 问题 的 。 例 如 ， 当 语句 中 使 用 了 USER、UUID 、SYSDATE 等 不 确定 性 函数 时 , 在 主 从 复制 结构 
中 , 从 节点 读 取 主 节点 的 binlog 事 件 然后 进行 重 放 , 可 能 会 导致 从 数据 库 和 主 数据 库 的 内 容 不 一 致 。 


ROW 格式 的 binlog 产 生 的 binlog 文 件 通常 相对 较 大 ， 但 解决 了 STATEMENT 格 式 的 binlog 在 含有 不 
确定 事件 的 时 候 导 致 主 从 数据 不 一 致 的 问题 , 因为 ROW 格 式 的 binlog 是 按照 表 的 行 数据 修改 情况 来 
记录 的 。ROW 格 式 被 认为 是 最 安全 的 数据 库 复制 方式 。 需 要 注意 的 是 ， 在 使 用 了 ROW 格式 的 binlog 
之 后 ， 执 行 的 DDL 语 句 和 FLUSH 系 列 语句 还 是 会 以 文本 的 形式 记录 下 来 (事件 类 型 为 
query_event )。 当 使 用 的 binlog 格 式 为 ROW 时 ， 如 果 一 条 UPDATE 语 句 匹 配 的 行 数 很 多 ， 这 个 时 候 会 
向 binlog 写 人 大 量 的 数据 。 


6.2.3 binlog 的 相关 参数 
1. max_binlog size 参数 


可 以 通过 配置 max_binlog_size 参 数 来 限定 单个 binlog 文 件 的 大 小 。 如 果 当 前 binlog 文 件 的 大 
小 达到 了 参数 指定 的 阔 值 , 会 创建 一 个 新 的 binlog 文 件 作 为 当前 活跃 的 binlog 文 件 , 后 续 所 有 对 数 
据 库 的 修改 都 会 记录 在 新 的 binlog 文 件 中 。 


对 于 binlog 文 件 的 大 小 , 有 个 需要 注意 的 地 方 是 , binlog 文 件 可 能 会 大 于 max_binlog_size 参 数 
设 定 的 阔 值 。 由 于 一 个 事务 所 产生 的 所 有 事件 必须 记录 在 同一 个 binlog 文 件 中 ， 所 以 即使 binlog 
文件 的 大 小 达到 max_binlog_size 参 数 指定 的 大 小 ， 也 要 等 到 当前 事务 的 所 有 事件 全 部 写作 到 
binlog 文 件 中 才能 切换 ， 这 样 就 会 出 现 binlog 文 件 的 大 小 大 于 max_binlog_size 参 数 指定 大 小 的 
情况 。 


2. binlog 过 滤器 
用 有 root 权 限 的 用 户 可 以 通过 执行 SET sql_log_bin=0 命 令 来 禁用 当前 会 话 ( 连接 ) 的 binlog 
功能 ， 该 会 话 执 行 的 所 有 操作 都 不 会 记录 在 binlog 中 。 


MariaDB/MySQL 也 可 以 通过 配置 binlog do_ db 和 binlog_ignore_ db 参数 选择 需要 记录 binlog 
的 数据 库 : 


ob 
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[mysqld] 
binlog do_db=db1 
binlog ignore_db=db2 


3. sync_binlogS 


默认 情况 下 (sync_binlog=0 )，binlog 文 件 在 每 次 写 入 内 容 后 是 不 会 立刻 持久 化 到 磁盘 上 的 ， 
具体 的 持久 化 操作 交 给 了 操作 系统 来 做 。 这 样 ， 当 操作 系统 崩溃 的 时 候 ， 对 binlog 文 件 进行 的 修 
改 可 能 会 丢失 ， 从 而 造成 binlog 文 件 的 数据 丢失 和 不 一 致 。 为 了 避免 发 生 这 种 情况 ， 可 以 将 
sync_binlog 配 置 成 1， 这 样 在 将 事务 写 入 到 binlog 文 件 中 之 后 立即 执行 fsync 操 作 将 binlog 文 件 的 
修改 同步 到 磁盘 上 。 但 这 样 会 降低 MariaDB/MySQL 的 性 能 ， 因 为 fsync 是 个 昂贵 的 系统 调用 。 你 
也 可 以 将 sync_binlog 配 置 成 一 个 整数 VY， 指定 在 写作 N 个 事务 之 后 才 执 行 一 次 fsync 操 作 ， 这 时 如 
果 系 统 衣 演 了 ，binlog 最 多 只 会 丢掉 N 个 事务 的 数据 。 在 第 7 章 中 , 我们 将 介绍 MariaDB 采 用 binlog 
group commit 技 术 提 高 了 在 大 量 并 发 事务 的 情况 下 事务 的 提交 速度 。 所 以 ， 在 通常 情况 下 ， 我 们 
应 该 总 是 将 sync_binlog 参 数 设置 为 1。 


6.3 binlog 事件 


MariaDB/MySQLbinlog 以 事件 的 形式 来 记录 数据 库 的 变更 情况 。 通 过 执行 show binlog events 
in "bp777og- 广 7e" 命 令 来 查看 指定 binlog 文 件 中 的 事件 ， 如 图 6-2 所 示 。 


| Log_name 

t------------------ +------ 十 
mysql-bin.000026 Format_desc Server ver: 5.6.14-debug-log, Binlog ver: 4 
mysql-bin.000026 Query use ‘python’; create table abcd(a int(11), b 
mysql-bin.000026 Query BEGIN 


mysql-bin.000026 Table_map table_id: 75 (python.abcd) 
mysql-bin.000026 Write_rows table_id: 75 flags: STMT_END_F 
mysql-bin.000026 Xid COMMIT /* xid=25 */ 
mysql-bin.000026 Query BEGIN 

mysql-bin.000026 Table_map table_id: 75 (python. abcd) 


mysql-bin.000026 Write_rows table_id: 75 flags: STMT_END_F 
mysql-bin.000026 Xid COMMIT /* xid=39 */ 


图 6-2 show binlog events 命 令 


执行 show binlog events 命 令 后 ， 我 们 可 以 获取 事件 类 型 、 事 件 在 文件 中 的 位 置 等 信息 。 如 
果 binlog 的 格式 为 STATEMENT， 还 能 看 出 具体 执行 的 SQL 语句 。 


6.3.1 binlog 事 件 格式 


binlog 事 件 由 公有 事件 头 〈 common-header )、 私 有 事件 头 (post-header ) 和 事件 体 (body ) 3 
部 分 组 成 ， 如 图 6-3 所 示 。 所 有 的 事件 都 包含 公有 事件 头 。 在 固定 版 本 的 binlog 中 ,公有 事件 头 的 
长 度 和 格式 是 固定 的 。 根据 事件 类 型 的 不 同 , 某 些 binlog 事 件 还 包含 私有 事件 头 。binlog 事 件 的 最 
后 一 部 分 就 是 事件 体 ,根据 事件 类 型 的 不 同 , 事件 体 的 格式 和 包含 的 信息 也 各 不 相同 ,也 有 一 些 
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alin 


码 件 没有 事件 体 ， 例 如 stop_event 仅 仅 包含 一 个 公有 事件 头 。 
所 有 的 binlog 事 件 都 包含 公有 事 


公有 事件 头 件 头 。 根 据 binlog 版 本 的 不 同 ， 
ee 其 长 度 为 13 字 节 或 19 字 节 
私有 事件 头 。 ”; 。 ”部 分 binlog 事 件 包含 私有 事件 头 
事件 体 根据 事件 类 型 的 不 同 ， 包 含 了 不 同 的 信息 


图 6-3 binlog 事 件 的 组 成 


所 有 的 binlog 事 件 都 以 一 个 13 或 者 19 字 节 的 公有 事件 头 开 始 , 其 中 包含 了 该 事件 发 生 的 时 间 、 
有 件 类 型 、 事 件 长 度 以 及 server-id 等 信息 。 公 有 事件 头 的 定义 如 下 : 


alin 


RR 字段 

4 timestamp 
1 event type 
4 server-id 
4 event size 
if binlog-version > 1: 

4 log pos 

2 flags 


图 6-4 给 出 了 公有 事件 头 的 组 成 情况 ， 图 中 的 虚线 部 分 表示 只 有 版 本 大 于 1 的 binlog 才 包含 。 


timestamp 
event type 


| server-id 


公有 事件 头 


event size 


图 6-4 binlog 公 有 事件 头 


timestamp 字 段 包 含 了 该 事件 的 开始 执行 时 间 ，event type 字 段 指明 了 该 事件 的 类 型 ， 
server_id 字 段 是 产生 该 事件 的 MariaDB/MySQL 服 务 顺 的 server-id，event size 字 段 标 识 了 该 事 
件 的 长 度 ， 包 括 公 有 事件 头 、 私 有 事件 头 和 事件 体 3 部 分 的 长 度 。 


对 于 版 本 大 于 1 的 binlog， 公 有 事件 头 的 长 度 是 19 字 节 ， 其 中 log pos 字 段 指示 了 下 一 个 事件 
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在 binlog 文 件 中 的 位 置 。flags 字 段 则 包含 了 一 些 额外 的 信息 。 例 如 ， 如 果 FORMAT_DESCRIPTION_ 
EVENT 事 件 的 flags 中 包含 了 LOG_EVENT_BINLOG_IN_USE_F 标 志 ， 表明 当前 binlog 正 在 使 用 , MariaDB 
在 启动 的 时 候 能 够 通过 检查 binlog 的 第 一 个 事件 FORMAT_ DESCRIPTION_EVENT 的 该 标志 来 判断 binlog 


是 否 能 正常 关闭 ， 如 果 非 正常 关闭 表明 MariaDB 和 需要 进行 异常 恢复 操作 。 


6.3.2 ”binlog 事 件 类 型 


图 6-5 简 单 展示 了 binlog 文 件 中 用 到 的 一 些 事 件 ， 下 面 我 们 将 对 图 中 列 出 的 事件 一 一 进行 介 
绍 。 当 然 ， 还 有 一 些 binlog 事 件 这 里 没有 列 出 ， 有 兴趣 的 读者 可 以 自行 查阅 相关 资料 。 


FORMAT_DESCRIPTION_EVENT FORMAT_DESCRIPTION_EVENT 
Ss | 
QUERY_EVENT i 


TABLE MAP_EVENT 
IRSERT_ROWS_EVENT i 
UPDATE _ROWS_EVENT -| | 


DELETE_ROWS_EVENT 


XID_EVENT ~ 
Fa 
BINLOG CHECKPOINT EVENT Fi 
eee Fd 
ROTATE_EVENT ea STOP_EVENT 


图 6-5 binlog 由 一 系列 的 事件 组 成 
1. FORMAT DESCRIPTION EVENT 


格式 描述 事件 是 binlog version 4 中 为 了 取代 之 前 版 本 中 的 START_EVENT_3 事 件 而 引入 的 。 它 是 
所 有 binlog 文 件 中 的 第 一 个 事件 ， 该 事件 在 一 个 binlog 文 件 中 仅 会 出 现 一 次 。MariaDB/MySQL 根 
据 FORMAT_DESCRIPTION_EVENT 事 件 的 定义 来 解析 binlog 中 的 其 他 事件 。FORMAT_DESCRIPTION_EVENT 
由 公有 事件 头 和 事件 体 两 部 分 组 成 。 事 件 体 的 定义 如 下 : 


FORMAT_DESCRIPTION_EVENT body 
2 


binlog-version 


string[50] mysql-server version 

4 create timestamp 

1 event header length 
string[p] event type header lengths 


表 6-1 给 出 了 FORMAT DESCRIPTION_EVENT 事 件 体 各 个 字段 的 具体 含义 。 
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表 6-1 FORMAT DESCRIPTION_EVENT 事 件 体 各 个 字段 的 含义 


字 R 长 È 位 置 说 AR 
binlog-version 2 字 节 事件 体 binlog 版 本 
mysql-server version 50 字 节 事件 体 服务 器 版 本 
create timestamp 4 字 节 事件 体 ”该 字段 指明 该 binlog 文 件 的 创建 时 间 。 如 果 该 binlog 是 由 于 切 


换 而 产生 的 (执行 flush logs 命 令 或 者 binlog 文 件 的 大 小 达到 
了 max_binlog_size 参 数 指定 的 值 ) ， 那 么 将 该 字段 设置 为 0 
event header length 1 字 节 事件 体 19 


event type header lengths 。 数组 事件 体 ”该 字 段 是 一 个 数组 ， 记 录 了 所 有 事件 的 私有 事件 头 的 长 度 


2. QUERY_EVENT 


QUERY_EVENT 以 文本 的 形式 来 记录 信息 。 当 binlog 的 格式 是 statement 的 时 候 ， 执 行 的 SQL 语句 
都 记录 在 QUERY_EVENT 中 ， 如 图 6-6 所 示 。 


4 | Format_desc 
-bin.000029 120 | Query 
-bin.000029 | 203¢| Query 
-bin.000029 329 | XI 


120 | Server ver: 
| BEGIN 
use 


COMMI 


-bin.000029 | 443 | Query 
-bin.000029 564 | Xid 


use ‘python’; update abcd set b="new values" where a < 10 
COMMIT /* xid=149 */ 


| 
| 
| 
| 
-bin.000029 | 360 | Query | BEGIN 
| 
| 


图 6-6 QUERY_EVENT 
QUERY_EVENT 由 公有 事件 头 、 私 有 事件 头 和 事件 体 3 部 分 组 成 ， 相 关 定 义 如 下 : 


QUERY_EVENT post-header: 


alin 


4 slave_proxy_id 

4 execution time 

1 schema length 

2 error-code 

if binlog-version > 4: 

2 status-vars length 


QUERY EVENT body: 


string[$len] status-vars 
string[$len] schema 

1 [00] 
string[EOF] query 


表 6-2 QUERY_EVENT 各 个 字段 的 含义 


字 R 长 度 位 E 说 明 
slave_proxy_id 4 字 市 私有 事件 头 。” 某 些 查询 可 能 会 创建 临时 表 ， 而 这 些 临时 表 仅 仅 在 当前 


的 连接 或 会 话 中 有 效 。 为 了 区 分 不 同 连 接 或 会 话 中 的 临 
时 表 ，slave_proxy_id 存 储 了 不 同 连接 或 会 话 的 线程 id 
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( 续 ) 
7 R K E 位 E 说 OB 
execution time 4 字 节 私有 事件 头 ”查询 从 开始 执行 到 记录 到 binlog 所 花 的 时 间 ， 单 位 为 秒 
schema length 145 LAFAR schema 字符 串 长 度 
error-code 2 字 节 私有 事件 头 ”错误 码 
status-vars length ”2 字 节 私有 事件 头 。 status-vars 长 度 
status-vars status-vars length ”事件 体 status-vars 字 段 是 以 键 / 值 对 的 形式 保存 起 来 的 一 系列 
SET 命 令 设 置 的 上 下 文 信息 ， 例 如 是 否 开启 autocommit 
schema schema length 事件 体 当前 选择 的 数据 库 
query 取决 于 查询 的 长 度 ” 事件 体 query 的 文本 格式 ， 里 面 存储 的 可 能 是 BEGIN、COMMIT 字 符 


串 或 者 原生 的 SQL 语句 ， 等 竺 


QUERY_EVENT 类 型 的 事件 通常 在 以 下 几 种 情况 中 使 用 。 


所 示 。 


mysql-bin.000034 Query 
mysql-bin.000034 Table_map 
mysql-bin.000034 Write_rows 
mysql-bin.000034 Xid 
mysql-bin.000034 Query 


O 事务 开始 时 ， 在 binlog 中 记录 一 个 类 型 为 QUERY_EVENT 的 BEGIN 事 件 。 
O 在 STATEMENT 格 式 的 binlog 中 ， 具 体 执行 的 SQL 语 句 保 存在 QUERY_EVENT 事 件 中 。 
O 对 于 ROW 格式 的 binlog， 所 有 的 DDL 操 作 以 文本 的 格式 记录 在 QUERY_EVENT 事 件 中 ， 如 图 6-7 


BEGIN 

table_id: 72 (python.test) 

table_id: 72 flags: STMT_END_F 

COMMIT /* xid=23_*/ 

use ‘python’; alter table test add column 


图 6-7 QUERY_EVENT3 


3. ROWS_EVENT 


EE 件 记录 ROW 格 式 中 的 DDL 语 句 


对 于 STATEMENT 格 式 的 binlog, 所 有 的 增删 改 操 作 的 原生 SQL 语句 都 记录 在 QUERY_EVENT 中 ， 而 
RON 格式 的 binlog 以 ROWS_EVENT 的 形式 记录 对 数据 库 数据 的 修改 。ROWS_EVENT 分 为 3 种 ， 
WRITE_ROWS_EVENT 、UPDATE_ROWS_EVENT 和 DELETE_ROWS_EVENT, 分 别 对 应 于 INSERT、UPDATE 和 DELETE 
语句 。WRITE_ROWS_EVENT 包 含 了 要 搬入 的 数据 ; UPDATE_ROWS_EVENT 不 仅 包 含 了 行 修改 后 的 值 ， 也 
包含 了 行 修改 前 的 值 ; DELETE_RONS_EVENT 仅 仅 包 含 了 需要 删除 行 的 主键 值 / 行 号 。 


3 种 RONS_EVENT 的 格式 很 类 似 ， 下 面 给 出 它们 的 定义 : 


row event post-header: 
if post_header_len == 6 { 


4 table-id 
} else { 

6 table-id 
} 
2 flags 


if version == 2 { 


104 ”第 6 章 二 进 制 日 志 binlog 


2 extra-data-len 
string.var_len extra-data 
} 
row event body: 
lenenc_int number of columns 
string.var_len columns-present-bitmap1, length: (num of columns+7)/8 
if UPDATE_ROWS EVENTv1 or v2 { 
string.var_len columns-present-bitmap2, length: (num of columns+7)/8 
} 
rows: 
string.var_len nul-bitmap, length (bits set in 'columns-present-bitmap1'+7)/8 
string.var_len value of each field as defined in table-map 
if UPDATE_ROWS_EVENTv1 or v2 { 
string.var_len nul-bitmap, length (bits set in 'columns-present-bitmap2'+7)/8 
string.var_len value of each field as defined in table-map 
} 


. repeat rows until event-end 


图 6-8 给 出 了 rows-event 各 个 字段 的 排列 情况 。 


= 
table-id 
flags > 私有 事件 头 
extra-data-len 
extra-data 
We tesa ee an 6 Se ue ae st 
number of columns 
columns-present-bitmap1 
六 事件 体 
行 (row) 
} 多 个 行 
J 


图 6-8 ”ROWS_EVENT 的 组 成 
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表 6-3 列 出 了 ROWS_EVENT 各 个 版 本 的 情况 。 


表 6-3 ROWS_EVENT 版 本 情况 
版 本 包含 的 事件 特 ”性 


vo update_rows_eventvo / 


write_rows_eventvo 


delete_rows_eventvo 


v1 update_rows_eventv1 为 UPDATE_ROWS_EVENT 事 件 添 加 了 行 修改 前 的 值 
write rows eventv1 


delete rows eventv1 


v2 update_rows_eventv2 在 v1 的 基础 上 添加 了 extra_data 
write_rows_eventv2 


delete_rows_eventv2 


表 6-4 列 出 了 ROWS_EVENT 各 个 字段 的 具体 含义 。 


表 6-4 ROWS_EVENT 各 个 字段 的 含义 


字 R 长 度 位 E 说 明 
table-id 4 或 6 字 节 私有 事件 头 该 ROWS_EVENT 对 应 的 表 id 
flags 2 字 地 私有 事件 头 可 以 包含 以 下 信息 : 该 ROWS_EVENT 是 否 是 语句 的 最 后 


个 事件 ， 是 否 需 要 进行 外 键 约束 的 检查 ， 针 对 
InnoDB 的 二 级 索引 是 否 需要 进行 唯一 性 检查 ， 该 
RONS_EVENT 是 否 包含 了 完整 一 行 的 数据 , 也 就 是 说 覆 


盖 了 所 有 列 
extra-data-len 245 私有 事件 头 extra-data 的 长 度 
extra-data extra-data-len 私有 事件 头 仅 在 版 本 2 的 ROWS_EVENT 中 存在 。 用 于 携带 额外 的 数 
据 ， 主 要 目的 是 用 于 扩展 
number of columns “1、3、4 或 9 字 节 事件 体 表 的 列 数 
columns-present- (number of columns+7)/8 ”事件 体 以 位 图 的 形式 指示 了 该 ROWS_EVENT 包 含 了 哪些 列 的 
bitmap1 数据 
co umns-present- (number of columns+7)/8 ”事件 体 对 于 新 版 本 (v1 和 v2) 的 UPDATE_ROWS_EVENT 事 件 ， 
bitmap2 不 仅 包含 列 修改 后 的 值 ， 还 包含 列 修改 前 的 值 
nul-bitmap (bits set _in(columns - 事件 体 columns-present-bitmap 中 为 空 的 列 ，MariaDB 会 以 
present- bitmap1)+7)/8 NULL 或 者 列 对 应 的 默认 值 补 全 
value of colums ”取决 于 列 的 值 事件 体 列 的 数据 


4. TABLE_MAP_EVENT 


在 ROW 格式 的 binlog 文 件 中 ,每 个 ROWs_EVENT 事 件 之 前 都 有 一 个 TABLE_MAP_EVENT， 用 于 描述 表 
的 内 部 id 和 结构 定义 ， 如 图 6-9 所 示 。 


Event_type | Server 
REE eee Pb ea 
Format_desc | 

Query 
Table_map 
Write_rows 
Xid 


5 
| 
Hi 
in.000030 | 
in.000030 | BEGIN 
in.000030 | 
in.000030 | 
in.000030 | 
in.000030 | 
in.000030 | 
in.000030 | 
in.000030 | 
.000030 | 
in.000030 | 
in.000030 | 
.90669636 | 


BFGIN 


Updaté_rows 
Xid 
Query 
Table_map 

Delete_rows 
Xid 


| 
i 
| 
| 
| 
Table_map i 
| 
| 
| BEGIN 
i 
| 
| 


图 6-9 TABLE_MAP_EVENT 
TABLE_MAP_EVENT 的 定义 如 下 : 


table map event post-header: 
if post header len == 6 { 


4 table id 
} else { 

6 table id 
2 flags 


table_map event body: 
1 schema name length 


string schema name 

1 [00] 

1 table name length 

string table name 

1 [00] 

lenenc-int column-count 

string.var_len [length=$column-count] column-type-def 
lenenc-str column-meta-def 

n NULL-bitmap, length: (column-count + 7) / 8 


TABLE_MAP_EVENT 各 个 字段 的 含义 如 表 6-5 所 示 。 


表 6-5 TABLE_MAP_EVENT 各 个 字段 的 含义 


| table_id: 
table td: 
COMMIT /* 


| table_id: 
table to: 
COMMIT /* 


Server ver: 5.6.14-debug-log, B| 


| table_id: 
table he 
COMMIT /* 


xid=170 */ 


75 (python.abcd) 
75 tags: STMT END_F 
xid=194 */ 


75 (python.abcd) 
STMT_END_F 


75-ftagsz 


xid=198 */ 


字段 名 称 字段 长 度 所 属 部 分 说 明 
table-id 4 或 6 字 节 私有 事件 头 表 id 
flags 25 私有 事件 头 标志 位 ， 暂 时 未 使 用 
schema name schema name length 事件 体 表 所 在 数据 库 的 名 称 
table name table name length 事件 体 表 名 
column-count 1、3、4 或 9 字 节 事件 体 表 的 列 数 
column-type-def column-count 事件 体 列 的 类 型 
column-meta-def 长 度 取决 于 列 的 类 型 事件 体 列 的 元 信息 
null-bitmap (column-count+7)/8 事件 体 以 位 图 的 形式 记录 可 以 为 NULL 的 列 
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5. XID_EVENT 


当 提交 事务 时 ， 不 管 是 STATEMENT 还 是 ROW 格式 的 binlog， 都 会 添加 一 个 XID_EVENT 事 件 作为 寻 
务 的 结束 。 aei 了 该 事务 的 id。 EMariaDB/MySQL ÍTR RR ASIN, 根据 事务 在 binlog 
中 的 提交 情况 来 决定 是 否 提交 存储 引擎 中 状态 为 prepared 的 事务 。 


XID_EVENT 的 格式 很 简单 ， 事 件 体 仅 仅 包 含 一 个 xid 字 段 : 


tity 


alin 


xid_event body: 
8 xid 


6. BINLOG CHECKPOINT EVENT 


该 事件 是 MariaDB 引 入 的 新 事件 , 主要 用 于 朋 淡 恢复 。 在 两 阶段 事务 提交 过 程 中 ， 当 MariaDB 
RIT, 我 们 需要 根据 binlog 中 事务 的 提交 情况 来 决定 是 否 提交 存储 引擎 内 部 状态 为 prepared 的 事 
- 为 了 减少 恢复 过 程 中 需要 读 取 的 binlog 文 件数 ， 当 某 个 binlog 文 件 内 部 的 所 有 事务 都 在 存储 引 
擎 内 部 提交 了 ,这 时 我 们 会 在 binlog 中 写 人 一 个 BINLOG_CHECKPOINT_EVENT 事 件 。 执 行 骨 溃 恢 复 的 过 
程 中 ， 我 们 会 根据 所 读 取 的 BINLOG_CHECKPOINT_EVENT 来 决定 哪些 binlog 文 件 是 可 以 不 用 扫描 的 。 


下 面 给 出 了 MariaDB 中 BINLOG_CHECKPOINT_EVENT 事 件 的 实现 ,该 事件 指明 了 崩 演 恢复 时 扫描 
binlog 的 起 始 位 置 : 


class Binlog checkpoint_log event: public Log event 


{ 

public: 
char *binlog file name; 
uint binlog file len; 


J; 
7. ROTATE_EVENT 
当 binlog 文 件 的 大 小 达到 max_binlog_size 参 数 设置 的 值 时 或 者 执行 flush logs 命 令 时 ，binlog 


会 发 生 切 换 ， 这 时 会 在 当前 使 用 的 binlog 文 件 末尾 添加 一 个 ROTATE_EVENT 事 件 , 将 下 一 个 binlog 文 
件 的 名 称 记录 在 该 事件 中 ， 如 图 6-10 所 示 。 


mysql> flush logs 
Query OK, © rows affected (0.27 sec) 


mysql> show binlog events in "mysql-bin.000032"; 


i mysql-bin.000032 | 4 i Format_desc 1 Server ver: 5.6.14-debug-log, 

| mysql-bin.000032 | | Query | BEGIN 

| mysql-bin.000032 | | Table_map | table_id: 75 (python. abcd) 

| mysql-bin.000032 | 246 | Write_rows | table_id: 75 flags: STMT_END_F| 
| mysql-bin.000032 | xid | COMMIT /* xid=239 */ 

l mysql-bin.000032 | otate ! mysql-bin.000033;pos=4 

SSE RRR ORC EE EE OIOS 二 TY 


图 6-10 ROTATE_EVENT 


ROTATE_EVENT 的 定义 如 下 : 
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rotate event post-header: 
if binlog-version > 1 { 
8 position 


} 


rotate_event body: 
string[p] name of the next binlog 


8. STOP_EVENT 


当 MariaDB/MySQL 停 止 时 ， 会 在 当前 binlog 文 件 的 结尾 写 入 一 个 STOP_EVENT 事 件 来 表示 数据 


库 停 止 ， 如 图 6-11 所 示 。 


| mysql-bin.000033 | 374 | Xid 
| mysql-bin.000033 | 405 | Stop 


图 6-11 STOP_EVENT 


STOP_EVENT 仅 仅 包含 一 个 公有 事件 头 ， 没 有 私有 事件 头 和 事件 体 部 分 ， 因 为 只 需要 在 公有 事 
件 头 的 event type 字 段 指定 为 STOP_EVENT 就 可 以 了 ， 不 需要 携带 额外 的 信息 


6.3.3 binlog 事 件 的 实现 


在 MariaDB 中 ， 所 有 的 事件 类 都 是 从 Log_event 类 继承 而 来 的 ， 该 类 定义 了 所 有 binlog 事 件 的 
共同 属性 和 函数 。 图 6-12 给 出 的 是 MariaDB 中 各 个 事件 类 的 继承 关系 。 


Log event 
Query_log event 


| Start_log event_v3 ki Format_description_log event 
Table_map_log event 
Rows_log event 


Binlog checkpoint_log_event| 


Write_rows_log event 


Delete_rows_log event 


Update_rows_log event 


User_var_log event | 


Heartbeat_log event 


图 6-12 ”binlog 事 件 类 的 继承 图 
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6.4 清理 binlog 

随 着 MariaDB/MySQL 的 和 运行， 产生 的 binlog 越 来 越 多 ， 当 binlog 占 用 的 磁盘 空间 比较 多 的 时 
候 ， 就 需要 清理 过 期 的 或 者 不 再 需要 的 binlog 文 件 。 
6.4.1 手动 清理 binlog 


通常 ， 有 两 种 方式 来 手动 清理 binlog， 一 种 是 使 用 MariaDB/MySQL 提 供 的 purge 命 令 ， 一 种 
是 使 用 系统 自 带 的 rm 命令 。purge 命 令 的 定义 如 下 : 


purge {binary | master} logs to "binlog-file-name" 

purge {binary | master} logs before "datetime-expr" 
其 中 第 一 种 形式 的 purge 命 令 的 作用 是 将 binlog-file-name 之 前 的 所 有 binlog 文 件 清理 掉 ， 而 第 二 种 
形式 的 purge 命 令 的 作用 是 将 最 后 修改 时 间 早 于 datetime-expr 的 binlog 文 件 清理 掉 。 


使 用 rm 命令 手动 清理 binlog 的 流程 如 下 。 


(1) 确保 你 的 MariaDB/MySQL 处 于 停止 状态 。 
(2) 使 用 zm 命 令 按 顺序 删除 binlog 文 件 。 
(3) 修改 index 文 件 ， 把 已 经 删除 的 binlog 文 件 从 index 文 件 中 删除 。 


在 使 用 rm 命令 清理 binlog 时 ， 首 先 应 该 确保 MariaDB/MySQL 处 于 停止 状态 ， 因 为 我 们 要 手动 
修改 index 文 件 。 其 次 需要 注意 的 是 ，index 文 件 是 按 顺 序 记录 使 用 了 哪些 binlog 文 件 ， 所 以 使 用 rm 
命令 来 删除 binlog 文 件 时 ， 一定 要 按照 其 在 index 文 件 中 的 顺序 来 清理 ， 否 则 会 出 现 问 题 。 


6.4.2 ”自动 清理 binlog 


除了 手动 清理 binlog 外 , 还 有 一 种 自动 清理 binlog 的 方法 。 在 启动 MariaDB/MySQL server 的 时 
候 , 携带 expire_logs_days=N 参 数 (0<N<99 ), 或 者 在 配置 文件 中 添加 expire_logs_days=N 选 项 ， 
这 样 MariaDB/MySQL server 只 会 保存 N 天 的 binlog， 过 期 的 binlog 文 件 会 被 自动 清理 掉 。 


自动 清理 的 具体 实现 是 : 当 binlog 文 件 发 生 切 换 或 者 MariaDB server 启 动 时 ，MariaDB 会 遍历 
index 文 件 ， 找 到 第 一 个 “最 后 修改 时 间 ” 在 N 天 内 的 binlog 文 件 ， 然 后 将 该 binlog 文 件 之 前 的 所 有 
binlog 文 件 删 除 掉 。 


6.4.3 ”purge 命 令 的 实现 


这 里 我 们 先 来 看 一 下 purge {binary | master} logs to "pbp7717og- 廊 7e" 命 令 的 具体 执行 过 程 。 该 
命令 会 调用 MYSQL_BIN_L0G: :purge_1ogs 函 数 来 完成 具体 的 工作 ， 下 面 我 们 给 出 该 函数 的 具体 实现 : 
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// sql/log.ce 


1. int MYSQOL BIN LOG::purge logs(const char *to_log, 


ON 上 上 ww NN 


o N 


bool included, // 如 果 为 true，to_log 也 会 被 清理 掉 
bool need_mutex, // 是 否 需 要 加 锁 

bool need update threads, 

ulonglong *decrease log space) 


int error= 0; 

bool exit_loop= 0; 
LOG_INFO log info; 
THD *thd= current_thd; 


if (need_mutex) 
mysql_mutex_lock(&LOCK_index) ; 


// 检查 to_108 是 否 存在 
if ((error=find_log pos(&log info, to_log, 0 /*no mutex*/))) 
{ 


goto err; 


} 


// 创建 一 个 purge_jindex_ file， 用 于 保存 待 删除 的 binlog 
if ((error= open_purge_index_file(TRUE))) 
{ 


goto err; 


} 


// 遍历 index 文 件 ， 将 可 以 删除 的 binlog 添 加 到 purge_index_file 中 

if ((error=find log pos(&log info, NullS, 0 /*no mutex*/))) 
goto err; 

while ((strcmp(to_log,log info.log file name) || (exit_loop=included)) && 
can_purge log(log info.log file_name)) 


| if ((error= register purge index entry(log info.log file_name))) 
{ 
goto err; 
} 
if (find next log(&log info, 0) || exit loop) 
break; 
} 


// 将 purge_index_file 写 入 到 磁盘 
if ((error= sync_purge_index_file())) 
{ 


goto err; 


} 


// 更 新 index 文 件 ， 将 待 删除 的 binlog 文 件 名 从 中 删除 掉 
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32. if ((error=update_log index(&log info, need_update_threads))) 


33. { 

34. goto err; 
35. } 

36.err: 


// 删除 所 有 待 删除 的 binlog 文 件 
37. if (is inited purge index file() && 
(error= purge_index_entry(thd, decrease log space, FALSE))) 
38. sql_print_error("MSYOL_BIN_LOG::purge_logs failed to process registered files" 
" that would be purged."); 


// 删除 purge_index file 文 件 
39. close_purge_index_file(); 


40. if (need_mutex) 
41. mysql_mutex_unlock(&LOCK_index) ; 


42. DBUG_RETURN(error) ; 
43.} 


先 看 purge_logs 函 数 中 各 个 参数 的 含义 。 


O to log: 将 会 删除 to_ log 之 前 的 所 有 binlog 文 件 。 

O included: 如 果 该 参数 为 true， 那 么 to log 本身 也 会 被 删除 掉 。 

O need_mutex: 如 果 该 参数 为 true， 在 整个 执行 过 程 中 需要 加 锁 。 

口 need_update threads: 由 于 index 文 件 有 修改 ，binlog 文 件 在 index 中 的 偏 移 量 发 生 了 变化 ， 
需要 通知 各 个 线程 进行 更 新 。 

口 decrease_log space: 更 新 binlog 占 用 的 磁盘 空间 。 


第 9 行 代码 检查 to_log 在 index 文 件 中 是 否 存在 ， 避 人 免 非法 的 purge 操 作 。 

第 13 行 代码 创建 一 个 purge_index_file， 用 于 保存 待 删 除 的 binlog 文 件 名 称 。 

第 17 行 到 第 27 行 代码 遍历 index 文 件 ,将 to_log 之 前 (或 者 包括 to_log ) 能 够 被 删除 ( 没有 使 
用 ) 的 binlog 文 件 加 入 到 purge_index file 中 。 在 遍历 的 过 程 中 , 如 果 某 个 binlog 文 件 正 在 使 用 ( 例 
W, 该 binlog 文 件 正在 被 复制 线程 所 使 用 , 或 者 该 binlog 文 件 为 当前 活跃 的 binlog 文 件 ), 那么 将 会 
跳出 循环 ，puzrge 操 作 仅仅 会 删除 被 使 用 的 binlog 文 件 之 前 的 所 有 其 他 binlog 文 件 。 

第 28 ~ 31 行 代码 ， 将 purge_index _ file 的 内 容 写 人 到 磁盘 。 

第 32 ~ 35 行 代码 更 新 index 文 件 的 内 容 ， 将 待 删除 的 binlog 文 件 从 index 文 件 中 删除 掉 。 


至 此 ， 如 果 系 统 或 者 MariaDB server 进 程 崩 演 ， 也 不 会 发 生 index 文 件 和 binlog 文 件 不 一 致 的 
情况 。 在 MariaDB server 重 新 启动 的 时 候 会 检查 purge_index_file 是 否 存在 ， 如果 存在 , 会 将 其 中 
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记录 的 binlog 文 件 ; 


删除 。 


第 37 行 代码 将 记录 在 purge_index file 中 所 有 竺 删除 的 binlog 文 件 删除 掉 。 


第 39 行 代码 将 purge_index file 文件 删除 掉 。 


purge {binary | master} logs before "datetime-expr" 命 令 的 执行 过 程 也 是 类 似 的 ， 该 命令 


首先 寻找 第 一 个 “最 后 修改 时 间 ” 大 于 datetime-expr 的 binlog 文 件 ， 然 后 以 该 binlog 文 件 名 作为 
to_log 参 数 调 用 MYSQL_BIN L0G: :purge_logs PÁX. 


6.5 binlog cache _mngt 结构 


对 于 非 事务 的 存储 引擎 ， 所 有 的 修改 会 立刻 写 人 到 binlog 文 件 中 。 对 于 事务 的 存储 引擎 ， 事 
情 会 稍微 复杂 一 点 。 因 为 一 个 事务 可 能 包含 多 条 语句 , 如 果 所 有 的 修改 立刻 写 人 到 binlog 文 件 中 ， 
那么 当 用 户 需 要 回 深 该 事务 的 时 候 就 会 陷入 麻烦 之 中 。MariaDB 使 用 了 binlog_cache_mngr 结 构 来 
缓存 一 条 事务 产生 的 所 有 修改 。 如 果 用 户 执 行 提交 操作 ， 就 将 binlog_cache_mngr 的 内 容 写 人 到 
binlog 文 件 中 ; 如 果 用 户 执 行 回 滚 操作 , 将 会 丢弃 binlog_cache_mngr 内 的 修改 , 这 样 就 保证 binlog 
文件 的 内 容 和 数据 库 的 修改 保持 一 致 ， 如 图 6-13 所 示 。 


begin; 完整 的 事务 写 
入 binlog 文 件 


commit; 
Ey binlog_cache_mngr Cc» binlog 


bi 


hy 


6.6 mysqlb 


egin; 


ollback; 
E binlog_cache_mngr D binlog 


图 6-13 binlog_cache_mngr 


inlog 工具 


MariaDB/MySQL 的 binlog 以 二 进 制 的 形式 来 描述 数据 库 是 如 何 被 修改 的 , mysqlbinlog 工 具 可 
以 将 binlog 中 事件 包含 的 信息 以 文本 的 形式 打印 出 来 。 


mysqlbinlog 的 执行 方式 很 简单 : mysqlbinlog [options] binlog-file ... 
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下 面 我 们 截取 了 mysqlbinlog 的 一 段 输 出 : 


# at 421 

#140320 8:57:52 server id 1 end log pos 525 CRC32 Ox0d2b0848 Query thread_id=12 exec time=0 error code=0 

SET TIMESTAMP=1395277072/*!*/; 

DELETE FROM test_table WHERE a=2 

/*1*/; 

第 一 行 的 at 指明 了 该 事件 在 binlog 文 件 中 的 位 置 。 第 二 行 描述 了 该 事件 开始 的 执行 时 间 ， 执 
行 了 多 长 时 间 ， 执 行 该 事件 的 线程 号 等 信息 。 最 后 一 行 给 出 了 该 事件 所 执行 的 SQL 语句 。 


mysqlbinlog 的 输出 是 “可 执行 ”的 。 将 mysqlbinlog 的 输出 作为 mysql 命 令 的 输入 ， 就 能 重 放 
binlog 中 记录 的 修改 ， 这 对 于 MariaDB/MySQL 的 前 溃 恢 复 是 很 有 价值 的 。 


6.7 ”使 用 binlog 进行 恢复 


当 MariaDB/MyYSQL 骨 省 之 后 ， 可 能 会 造成 数据 丢失 和 不 一 致 。 如 果 我 们 定期 对 数据 库 进 行 
备份 ， 就 可 以 以 最 近 备 份 点 为 基础 ， 在 此 之 上 重 放 这 段 时 间 binlog 中 记录 的 修改 ， 把 我 们 的 数据 
库 恢 复 到 裔 省 前 的 状态 。 


通过 binlog 进 行 恢 复 主 要 有 以 下 两 步 。 


(1) 使 你 的 数据 库 恢 复 到 最 近 备 份 点 的 状态 。 
(2) 执行 mysqlbinlog your-bin-log | mysql -u root -p， 将 binlog 中 记录 的 修改 反映 到 数据 
库 中 。 


如 果 你 有 多 个 binlog 文 件 ， 第 二 步 需要 执行 多 次 ,并且 要 保证 是 在 同一 个 会 话 中 按 顺 序 执行 
的 ， 不 然 将 会 导致 数据 不 一 致 。 


6.8 ”小结 


在 阅读 完 这 一 章 之 后 ,你 应 该 对 MariaDB/MySQL 的 binlog 有 了 一 个 全 面 的 认识 。 这 里 我 们 再 
来 回顾 下 其 中 一 些 重要 的 内 容 。 


口 MariaDB/MySQL 的 binlog 由 一 系列 binlog 文 件 和 一 个 index 文 件 组 成 :binlog 文 件 以 事件 的 
形式 记录 了 MariaDB/MySQL 所 有 的 修改 ,index 文 件 记 录 了 MariaDB/MySQL 所 使 用 的 所 有 
binlog 文 件 。 不 要 在 MariaDB/MySQL 运 行 时 手动 修改 index 文 件 。 

口 binlog 的 格式 可 以 设置 为 STATEMENT 、ROW 或 者 MIXED。STATEMENT 格 式 的 binlog 以 文本 的 格式 
记录 了 执行 的 修改 语句 ， 它 比 RON 格式 产生 的 binlog 文 件 小 。ROW 格 式 的 binlog 解 决 了 
STATEMENT 格 式 的 binlog 在 含有 不 确定 事件 时 候 导 致 的 主 从 数据 不 一 致 的 问题 。 
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口 sync_binlog 参 数 的 选择 会 影响 到 MariaDB/MySQL 的 性 能 和 binlog 数 据 的 完整 性 ， 在 实际 
应 用 中 ， 我 们 应 该 尽量 把 sync_binlog 的 值 设 置 成 1。 

口 通过 purge {binary|master} logs 命 令 可 以 清理 过 期 的 binlog。 

O binlog 文 件 是 由 一 系列 事件 组 成 的 ,这 些 事件 描述 了 MariaDB/MySQL 数 据 库 的 内 容 是 如 何 
被 修改 的 。 

口 我 们 可 以 通过 mysqlbinlog 工 具 来 查看 binlog 中 记录 的 事件 ， 并 且 可 以 通过 重新 执行 binlog 
中 记录 的 修改 来 达到 数据 库 骨 溃 恢 复 的 目的 。 


binlog group commit 技 术 


在 关系 数据 库 中 , 为 了 满足 ACID 中 的 D (持久 化 ) 属性 , 也 就 是 说 事务 提交 并 且 成 功 返 回 给 
客户 端 之 后 , 必须 保证 该 事务 的 所 有 修改 都 持久 化 了 , 无 论 是 在 数据 库 程 序 崩 溃 的 情况 下 或 者 是 
数据 库 所 在 的 服务 器 发 生 宕 机 或 者 断 电 的 情况 下 , 都 必须 保证 数据 不 能 丢失 。 这 就 要 求 数据 库 在 
事务 提交 过 程 中 调用 fsync 或 fdatasync 将 数据 持久 化 到 磁盘 。fsync 是 一 个 昂贵 的 系统 调用 , 对 于 
普通 的 磁盘 ， 每 秒 只 能 完成 几 百 次 的 fsync 操 作 。 很 明显 ，fsync 将 会 限制 每 秒 钟 提交 的 事务 数 ， 
成 为 关系 数据 库 的 瓶颈 。 


对 于 MariaDB/MySQL， 这 种 情况 变 得 更 加 糟糕 。 在 开启 binlog 的 情况 下 ,为 了 保证 主 库 和 从 
库 之 间 数 据 的 一 致 性 ，MariaDB/MySQL 使 用 了 事务 的 两 阶段 提交 协议 。 在 这 种 情况 下 ， 为 了 满 
足 数据 的 持久 化 需求 ， 一 个 事务 的 提交 最 多 会 导致 3 次 fsync 操 作 。 

为 了 提高 MariaDB/MySQL 在 开启 binlog 的 情况 下 单位 时 间 内 的 事务 提交 数 , 就 必须 减少 每 个 
事务 提交 过 程 中 导致 的 fsync 的 调用 次 数 。MariaDB 从 版 本 5$.3 开 始 ， 引 入 了 binlog group commit 
技术 来 解决 这 个 问题 MySQL 从 版 本 5.6 开 始 也 加 入 了 binlog group commit 技 术 ， 其 他 一 些 非 官方 
的 组 织 也 提交 了 自己 的 补丁 来 解决 这 个 问题 , 但 基本 思路 都 非常 相似 。 本 章 中 ,我 们 将 详细 讲解 
binlog group commit 技 术 。 


本 音 的 内 容 主 要 包括 : 


口 事务 的 两 阶段 提交 
口 binlog group commit 的 工作 原理 
口 binlog group commit 的 实现 


7.1 事务 的 两 阶段 提交 


MariaDB/MySQL 在 开启 了 binlog 的 情况 下 ， 因 为 MariaDB/MySQL 是 通过 binlog 进 行 复制 的 ， 
为 了 保证 数据 在 主 库 和 从 库 之 间 的 一 致 性 ,会 使 用 事务 的 两 阶段 提交 协议 。 同 时 ,为 了 保证 数据 
的 安全 性 ， 我 们 还 需要 设置 参数 innodb flush logs at_trx_commit = 1 ( 如 果 我 们 使 用 的 是 InnoDB 
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事务 存储 引擎 ) 以 及 参数 sync_binlog=1, 前 者 保证 了 事务 在 ImnoDB 存 储 引擎 内 的 修改 持久 化 到 了 


磁盘 ( 对 于 InnoDB 来 说 是 重 做 日 志 的 持久 化 )， 后 者 保证 了 该 事务 在 binlog 中 的 修改 持久 化 到 了 
磁盘 。 
下 面 我 们 先 来 看 一 下 事务 在 MariaDB/MySQL 内 部 的 两 阶段 提交 过 程 ， 如 图 7-1 所 示 。 
会 话 服务 端 二 进 制 日 志 引擎 
生父 b 
准备 一 
7 se oeeal saunas cece a In 
号 ` 
eee ee 
同步 » 
人 OR Sa 
提交 b 
a EEE OK TEEI E E ate 
网 二 OR S| 


从 


图 7-1 可 以 看 出 ， 


(1) 事务 在 存储 引擎 内 部 准备 好 。 
(2) 事务 的 所 有 修改 写 和 到 binlog 中 并 进行 持久 化 。 这 一 步 完成 后 ， 当 数据 库 发 生 骨 省 恢复 的 
EA nb 2 E 
(3) 事务 在 存储 引擎 内 部 提 


时 候 ， 存 储 引 擎 


事务 的 两 阶段 提交 协议 保证 了 无 论 在 任何 情况 下 , 事 
要 么 两 个 里 面 都 不 存在 ， 这 就 保证 了 主 库 与 从 库 之 间 数 据 的 一 致 性 。 如 


当 数 据 库 系 统 重新 重启 时 会 进行 崩溃 恢复 操作 , 存储 引 敬 中 处 于 准备 好 状态 的 事务 会 去 查询 该 事 


图 7-1 事务 的 两 阶段 提交 
事务 的 提交 被 划分 为 3 个 步骤 
处 于 准备 好 状态 的 事务 可 以 被 回 滚 ， 


一 步 完成 后 对 应 的 binlog 对 于 崩溃 恢 


四 
IN 


也 可 以 被 提交 


复 来 说 就 没有 作用 了 。 


有 务 要 么 同时 存在 于 存储 引擎 和 binlog 中 ， 


BRIE RGR, 


务 是 否 同时 也 存在 于 binlog 中 ， 如 果 存 在 就 在 存储 引擎 内 部 提交 该 事务 〈 因为 此 时 从 库 可 能 已 经 


获取 了 对 应 的 binlog 内 容 )， 如 果 binlog 中 没有 该 事务 ， 


步 和 第 二 步 之 间 时 ， 明 显 处 于 准备 好 状态 的 习 


就 回 深 该 事务 。 例 如 ， 当 册 演 发 生 在 第 一 
有 务 还 没 来 得 及 写 入 到 binlog 中 ， 所 以 该 事务 会 在 存 


储 引 擎 内 部 进行 回 演 ， 这 样 该 事务 在 存储 引擎 和 binlog 中 都 不 存在 ;当月 尝 发 生 在 第 二 步 和 第 三 


步 之 间 时 ， 处 于 准备 好 状态 的 事务 存在 于 binlog 中 ， 那 么 该 事务 会 在 存储 引擎 


样 该 事务 就 同时 存在 于 存储 引擎 


Filbinlog'# - 


EA SET THESS, X 
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为 了 保证 数据 的 安全 性 ， 以 上 列 出 的 3 个 步骤 都 需要 调用 fsync 将 数据 持久 化 到 磁盘 。 由 于 在 
引擎 内 部 准备 好 的 事务 可 以 通过 binlog 来 恢复 ， 所 以 通常 情况 下 第 三 个 fsync 是 可 以 省 略 的 。 


7.2 binlog group commit 的 工作 原理 


group commit 的 核心 思想 是 多 个 并 发 的 需要 提交 的 事务 之 间 共 享 一 个 fsync 操 作 来 进行 数据 
的 持久 化 ,将 fsync 操 作 的 开销 平 挫 到 多 个 并 发 的 事务 上 去 。 例 如 ， 有 10 个 并 发 的 事务 需要 提交 ， 
我 们 可 以 通过 让 这 10 个 事务 共享 一 次 fsync 操 作 进 行 持久 化 ， 这 相 比 于 每 个 事务 需要 自己 执行 一 
次 fsync 来 进行 持久 化 ， 性 能 上 得 到 了 明显 提升 。 


由 于 开启 binlog group commit 没 有 任何 性 能 方面 或 者 其 他 方面 的 不 良 影响 ， 所 以 默认 情况 下 
MariaDB 的 binlog group commit 功 能 是 开启 的 ， 不 需要 配置 额外 的 参数 来 开启 。 同 时 我 们 需要 注 
意 的 是 ，binlog group commit 不 是 在 任何 时 候 都 能 发 挥 作用 的 ， 只 有 在 有 足够 多 并 发 的 需要 提交 
的 事务 时 ，fsync 操 作成 为 事务 的 提交 瓶 贷 的 情况 下 才能 给 MariaDB 带 来 性 能 的 提升 。 


MariaDB 提 供 了 binlog_commits 和 binlog_group_commits 两 个 变量 , 让 你 能 够 看 到 binlog group 
commit 技 术 为 数据 库 系统 减少 了 多 少 次 fsync 的 调用 。 通 过 调用 SHOW STATUS LIKE "binlog_ 
%commits" 命 令 ， 可 以 查看 这 两 个 变量 的 值 。 前 者 是 在 binlog 中 提交 的 总 事务 数 ， 后 者 是 执行 的 
binlog group commit 次 数 。 这 两 个 值 会 根据 数据 库 系统 压力 的 不 同 以 及 压力 是 持续 的 还 是 间断 性 
的 而 千差万别 。 示 例 代码 如 下 : 


mysql> SHOW STATUS LIKE "binlog %commits"; 


+---------------------------------- +-------------- 十 
| variable_name | Value | 
+---------------------------------- +-------------- 十 
| binlog_ commits | 2836932 | 
| binlog_group_commits | 1815490 | 
+---------------------------------- +-------------- 十 


2 rows in set (0.01 sec) 


binlog group_commits 的 值 总 是 小 于 等 于 binlog_commits 的 值 ， 因 为 一 次 group commit 操 作 提 
交 的 事务 数 总 是 大 于 等 于 1 的 。 


图 7-2 描 述 了 binlog group commit 技 术 中 多 个 事务 共享 一 次 fsync 操 作对 binlog 进 行 持久 化 的 工 
ERE, 虚线 部 分 为 多 个 事务 共享 一 次 fsync 操 作对 binlog 文 件 进 行 同步 。 其 实 图 中 描述 的 和 实际 
MariaDB/MySQL 的 binlog group commit 实 现 还 是 有 一 些 出 入 的 ， 具 体 我 们 会 在 下 一 节 中 详细 介 
绍 ， 图 7-2 只 是 为 了 让 读者 对 binlog group commit 技 术 有 个 非常 直观 的 理解 。 
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事务 1 (T1) ”事务 2 (T2) ”事务 3 (T3) binlog 引擎 


图 7-2 ”多 个 事务 之 间 共 享 一 次 fsync 操 作 进行 binlog 的 持久 化 


7.3 binlog group commit 的 实现 


binlog group commit 技 术 的 具体 实现 如 下 : 多 个 并 发 提交 的 事务 在 写 binlog 之 前 会 被 加 入 到 一 
个 队列 中 ,位 于 队列 头 部 的 事务 所 在 的 线程 称 为 leader 线 程 ， 其 他 事务 所 在 的 线程 称 为 follower 线 
程 。leader 线 程 负责 为 队列 中 所 有 的 事务 进行 写 binlog 操 作 ， 此 时 所 有 的 follower 线 程 处 于 等 待 状 
态 ， 然 后 leader 线 程 调用 一 次 fsync 操 作 ， 将 binlog 持 久 化 ， 最 后 通知 所 有 的 follower 线 程 可 以 继续 


往 下 执行 。 


接 下 来 ， 我 们 从 MariaDB 源 代码 的 角度 来 进一步 了 解 binlog group commit 技 术 的 相关 细节 。 


7.3.1 相关 的 数据 结构 
这 里 我 们 首先 给 出 binlog group commit 


1. binlog cache _mngr 类 


bin1og_cache_mngr 的 主要 作用 是 缓存 寻 
// sql/loc.ce 


class binlog cache mngr; 


中 用 到 的 几 个 重要 数据 结构 的 定义 以 及 相关 说 明 。 


BS 对 binlog 的 修改 ， 其 定义 如 下 : 


事务 在 提交 ( 提交 事务 有 3 种 方式 : 显示 执行 COMMIT 命 令 ; 当前 连接 的 autocommit 设 置 为 true， 
执行 的 每 条 语句 对 应 单独 的 一 个 事务 ; 某 些 DDL 命 令 的 执行 会 导致 当前 事务 隐 式 地 提交 ， 比 如 
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ALTER TABLE, CREATE TABLE 等 ) 之 前 ， 它 对 数据 库 的 修改 是 不 会 直接 写 人 到 binlog 中 的 ， 而 是 组 
存在 binlog_ cache mngr 里 ， 只 有 当 事 务 提 交 时 ， 才 会 将 binlog_cache_mngr 的 所 有 内 容 写 入 到 
binlog 中 ， 当 事务 回 深 时 ， 直 接 丢 弃 binlog_cache_mngr 中 的 所 有 内 容 。 也 就 是 说 ， 写 binlog 时 ， 
会 一 次 性 写 人 一 个 完整 的 事务 。 例 如 ， 一 个 包含 多 条 语句 的 事务 ， 在 执行 COMMIT 语 句 之 前 ， 所 有 
对 数据 库 的 修改 都 被 缓存 在 binlog_cache_mngr 结 构 中 ,只 有 在 执行 COMMIT 语 句 后 ,被 缓存 的 内 容 
才 会 被 写 人 到 binlog 中 。 


2. group_commit_entry 结 构 


接 下 来 看 一 下 结构 group_commit_entry， 这 是 binlog group commit 中 的 核心 数据 结构 ， 一 个 
group_commit_entry 实 例 对 应 即将 写 入 binlog 的 一 个 事务 : 


// sql/log.h 


struct group commit entry 


{ 
struct group_commit_entry *next; // 实现 队列 
THD *thd; // 事务 的 所 有 上 下 文 
binlog cache mngr *cache mngr; 
bool using stmt_cache; 
bool using trx_cache; 
Log event *end_event; // 事务 在 binlog 中 的 结束 事件 
Log event *incident_event; /* 如 果 发 生 异 常 ， 将 会 在 binlog 中 写 入 一 个 事故 事件 来 告知 从 库 、 
主 库 发 生 了 异常 ， 可 能 会 导致 主 库 和 从 库 的 数据 不 一 致 */ 
// 记录 该 事务 在 binlog group commit 过 程 中 发 生 的 错误 
int error; 
int commit_errno; 
IO_CACHE *error_cache; 
bool all; // 为 true 表 示 一 个 事务 结 
bool need_unlog; // COMMIT Hr & S 
bool check_purge; // 为 true 表 明 binlog 发 生 了 切换 
bool queued_by_other; // 为 true 表 示 被 其 他 事务 所 在 线程 加 入 到 组 提交 队列 中 
ulong binlog id; // 该 事务 写 入 到 了 哪个 binlog 中 
}; 


下 面 给 出 了 group_commit_entry 中 各 个 成 员 的 具体 含义 。 


O next: 用 于 实现 group_commit_entry 队 列 。 多 个 并 发 提交 的 事务 在 写 binlog 前 会 加 入 到 一 
个 队列 中 ， 由 leader 线 程 完成 队列 中 所 有 事务 的 写 binlog 操 作 以 及 调用 一 次 fsync 对 binlog 
进行 持久 化 。 
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O th: 事务 的 所 有 上 下 文 信息 。 


全 部 写 人 到 binlog 中 。 
O using stmt_cache: 为 true 表 示 一 个 命令 结 
O using trx_cache: 为 true 表 示 一 个 事务 结 


O cache_mngr: 事务 在 提交 之 前 , 它 对 数据 库 的 修改 都 会 缓存 在 该 结构 内 , 等 待 事务 提交 时 ， 


O end event: 该 事件 在 binlog 中 标识 了 当前 事务 的 结 
O incident_event: 当主 库 上 发 生 了 异常 时 ,会 在 binlog 中 记录 一 个 事故 事件 ， 该 事件 用 来 


Dall: 为 true 表 示 一 个 事务 已 经 结束 。 


口 binlog_id: 标识 了 该 事务 写 人 到 哪个 binlog。 


7.3.2 ”代码 执行 流程 


lik 


O 事务 在 引擎 内 部 准备 好 ; 
口 事务 写 和 人 到 binlog 中 ; 
口 在 引擎 内 部 提交 该 事务 。 


binlog 中 的 过 程 。 在 ha_commit_ trans 函数 内 部 ， 会 调 月 


通知 从 库 ， 主 库 发 生 了 异常 ， 可 能 会 导致 主 库 和 从 库 的 数据 不 一 致 。 
O error: 记录 组 提交 期 间 发 生 的 错误 ( MariaDB 自 定义 错误 码 )。 

口 commit_errno: 记录 组 提交 期 间 发 生 的 错误 ( 系统 错误 码 )。 

口 error_cache: 以 文本 的 形式 记录 错误 的 具体 信息 。 


口 need_unlog : 如 果 为 true ， 表 示 存 储 引 擎 不 支持 commit_checkpoint request 接 口 。 
commit checkpoint_request 接 口 是 存储 引擎 提供 给 上 层 用 于 请 求 存储 引擎 内 部 建立 检查 。 
口 check_purge: 如 果 为 true， 说 明 binlog 发 生 了 切换 。 

O queued_by other: 该 事务 被 其 他 事务 所 在 的 线程 加 入 到 组 提交 队列 中 。 


事务 提交 时 ， 会 调用 ha_commit_ trans 函数 ， 该 函数 负责 : 


事务 在 引擎 内 部 准备 好 以 及 在 引擎 内 部 提交 事务 不 是 我 们 关注 的 , 这 里 重点 关注 事务 写 和 到 


月 类 MYSOL_BIN_L0G 的 log_and_order 函 数 完 


成 对 binlog 的 写 信 。MariaDB/MySQL 对 binlog 的 操作 都 是 通过 MYSQL_BIN_L0G 类 进行 的 。 本 节 中 ， 
我 们 将 把 MYSOL_BIN_L0G 的 log_and_order 国 数 作 为 切 人 点 来 分 析 MariaDB 的 binlog group commit 


技术 ， 相 关 的 代码 在 sqylog.cc 文 件 中 : 
// sql/log.ce 
1. int MYSQL_BIN_LOG::log and order(THD *thd, my_xid x 


bool need prepare ordered attribute ((unused 
bool need commit ordered _ attribute ((unused) 


3. int err; 


id, bool all, 
))s 
)) 
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4. binlog cache mngr *cache_mngr= thd->binlog setup_trx_data(); 
5. if (!cache_mngr) 
6. DBUG_RETURN(0) ; 


// Sbinlog 


7: cache_mngr->using_xa= TRUE; 

8. cache_mngr->xa_xid= xid; 

9. err= binlog_commit_flush_xid_caches(thd, cache_mngr, all, xid); 
10. if (err) 

11. DBUG_RETURN(0); 


// 将 pin1og_ id 信息 放 入 返回 值 中 


12 . if (!xid || !cache_mngr->need_unlog) 

13 DBUG_RETURN(BINLOG_COOKIE_DUMMY(cache_mngr->delayed_error)); 
14. else 

15. DBUG_RETURN(BINLOG_COOKIE_MAKE(cache_mngr->binlog id, 

16. cache_mngr->delayed_error)) ; 

17.} 


我 们 先 来 看 一 下 函数 1og_and_order 的 几 个 参数 的 含义 : thd 存 储 了 事务 所 在 线程 的 所 有 上 下 
文 信息 ， 其 中 也 包括 该 事务 的 所 有 上 下 文 信息 ; xid 是 该 事务 的 id; all 如 果 为 true， 表 示 这 个 事 
务 要 么 是 用 户主 动 执行 commit 语 句 提 交 的 或 者 是 由 于 用 户 执 行 DDL 语 句 被 动 提交 的 。 函数 的 最 后 
两 个 参数 暂时 没有 使 用 。 


第 4 行 到 第 6 行 代 码 用 于 获取 该 事务 相关 的 binlog_cache_mngr 结 构 。 我 们 之 前 提 到 过 , 该 结构 
缓存 了 事务 即将 写 和 人 到 binlog 中 的 内 容 。 真 正 地 写 binlog 的 操作 发 生 在 第 9 行 ， 这 里 调用 了 类 
MYSQL_BIN_LOGHYbinlog commit_flush_xid_cachesphi2X. 

第 12 行 到 第 16 行 代码 用 于 将 该 事务 写 人 到 哪个 binlog 文 件 这 一 信息 放 和 返回 值 中 。 该 信息 在 
存储 引擎 不 支持 commit_ checkpoint request 时 使 用 。 


继续 往 下 分 析 ， 我 们 看 一 下 函数 binlog_commit flush xid_caches 到 底 做 了 什么 事情 : 


// sqllog.cc 


1. static inline int binlog commit_flush_xid_caches(THD *thd, 
binlog cache mngr *cache_mngr, bool all, my_xid xid) 


2. { 
3. if (xid) 
4 { 
// 以 一 个 xid 事 件 作 为 事务 的 结束 
5. Xid_log_event end_evt(thd, xid, TRUE); 
6. return (binlog_flush_cache(thd, cache_mngr, &end_evt, all, TRUE, TRUE)); 
Ts } 
8. else 
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9 { 

/* 

当 xid 为 空 时 ， 我 们 以 一 个 内 容 为 COMMIT 的 QUERY_EVENT 事 件 来 标记 该 事务 结束 

aA 
10. Query_log event end_evt(thd, STRING WITH_LEN("COMMIT"),TRUE, TRUE, TRUE, 0); 
11. return (binlog flush_cache(thd, cache_mngr, &end_evt, all, TRUE, TRUE)); 
12. } 
13.} 


在 上 面 这 个 函数 中 ,我 们 看 到 Xid_log_evnet 和 Query_log_event 这 两 个 事件 类 型 。 第 6 章 已 介 
绍 过 ，binlog 以 事件 的 形式 记录 数据 库 的 变更 情况 ， 所 有 在 代码 中 看 到 的 是 以 log_event 结 尾 的 
不 同类 型 代表 了 binlog 的 不 同事 件 。 

第 3 行 到 第 7 行 代 码 中 ， 如 果 xid 不 为 空 ， 在 binlog 中 以 一 个 xid 事 件 标 记 一 个 事务 的 结 

第 8 行 到 第 12 行 代码 中 ， 当 xid 为 空 时 , 我 们 以 一 个 内 容 为 COMMIT 的 OUERY_EVENT 事 件 ( 详 见 6.3 
节 ) 来 标识 该 事务 的 结 

不 管 代码 走 哪个 分 支 ， 最 后 都 会 调用 binlog flush_cache 函 数 ， 将 事务 对 数据 库 做 的 更 改写 
人 到 binlog 中 。 下 面 我 们 接着 分 析 一 下 bin1log_flush_cache 函 数 : 


由 


// sqi/log.cc 


1. static int binlog flush_cache(THD *thd, binlog cache_mngr *cache_mngr,Log event *end_ev, bool all, 
bool using stmt, bool using trx) 


pee | 
3. int error= 0; 
4. if ((using_stmt && !cache_mngr->stmt_cache.empty()) || 
5. (using_trx && !cache_mngr->trx_cache.empty())) 
6. { 

// 将 所 有 没有 写 入 到 binlog_cache_mngr 的 事件 写 入 到 binlog_cache_mngr 中 
7. if (using stmt && thd->binlog flush_pending rows event(TRUE, FALSE)) 
8. DBUG_RETURN(1); 
9. if (using trx 8& thd->binlog flush_pending rows_event(TRUE, TRUE)) 
10. DBUG_RETURN(1); 


// 将 事务 的 所 有 事件 写 入 到 binlog 中 
11. error= mysql bin log.write transaction to binlog(thd, cache_mngr, 
end_ev, all, using stmt, using trx); 


12. } 

13. else 

14. { 

15. cache_mngr->need_unlog= 0; 
16. } 


// 清理 binlog_cache_mngr 
17. cache mngr->reset(using stmt, using trx); 
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18. DBUG_ASSERT((!using stmt || cache_mngr->stmt_cache.empty()) && 
(lusing trx || cache_mngr->trx_cache.empty())); 

19. DBUG_RETURN(error) ; 

20.} 


从 代码 中 可 以 看 出 , 该 函数 的 主要 功能 就 是 在 事务 提交 时 , 将 还 未 写 人 到 binlog_cache_mngr 
的 内 容 全 部 写 入 到 binlog_cache_mngr 中 (第 7 行 到 第 10 行 代码 )， 然 后 调用 MYSQL_BIN_L0G 的 
write_transaction_to_binlog 隙 数 将 该 事务 产生 的 所 有 修改 写 入 到 binlog 中 (第 11 行 代码 )， 接 着 
清空 binlog_cache_mngr 结 构 中 的 内 容 ， 以 便 开始 新 的 事务 ( 第 17 行 代码 )。 接 下 来 ， 让 我 们 跟随 
代码 流程 进入 write_transaction to_binlog 函 数 : 


1. bool MYSQL BIN LOG::write transaction to binlog(THD *thd, 
binlog cache mngr *cache_mngr, 
Log event *end_ev, bool all, 
bool using stmt_cache, 
bool using trx_cache) 


2 
3. group_commit_entry entry; 
4 Ha_trx_info *ha_info; 


// 给 entry 结 构 赋 值 
5 entry.thd= thd; 
6 entry.cache_mngr= cache_mngr; 
7. entry.error= 0; 
8 entry.all= all; 
9 entry.using stmt_cache= using stmt_cache; 


10. entry.using trx_cache= using _trx_cache; 

11. entry.need_unlog= false; 

12. ha_info= all ? thd->transaction.all.ha_list : thd->transaction.stmt.ha_list; 
13. for (; ha_info; ha_info= ha_info->next()) 

14. { 

15. if (ha_info->is_started() && ha_info->ht() != binlog hton 8& 
16. !ha_info->ht()->commit_checkpoint_request) 

17. entry.need_unlog= true; 

18. break; 

19. } 

20. entry.end_event= end_ev; 


// 如 果 在 执行 命令 或 者 事务 的 过 程 中 发 生 了 异常 ， 记 录 事 故事 件 
21. if (cache_mngr->stmt_cache.has_incident() || 
cache_mngr->trx_cache.has_incident()) 


22. { 
23. Incident_log event inc_ev(thd, INCIDENT LOST EVENTS, write error msg); 
24. entry. incident_event= &inc_ev; 


25. DBUG_RETURN(write_transaction_to_binlog events(&entry) ); 
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26 . } 

27. else 

28. { 

29. entry. incident_event= NULL; 

30. DBUG_RETURN(write_transaction_to binlog events(&entry) ); 
31. } 

32.} 


从 以 上 代码 可 以 看 出 ，write transaction to _binlog 函 数 首先 将 事务 的 内 容 封 装 在 group_ 
commit_entry 结 构 里 ， 然 后 调用 write transaction to binlog events 国 数 将 entry 的 内 容 写 人 到 
binlog 中 。 


第 5 行 到 第 11 行 代码 用 于 填充 结构 group_commit_entry 的 值 。 


第 12 行 到 第 19 行 代码 中 , 如 果 存 储 引 警 不 支持 commit_checkpoint request 接口 , 那么 将 entry 
的 need_unlog 赋 值 成 true。 


第 21 行 到 第 26 行 代码 中 ， 如 果 在 执行 事务 的 过 程 中 发 生 了 异常 ,会 记录 一 个 incident 事 件 到 
binlog， 用 来 通知 从 库 ， 主 库 发 生 了 异常 ， 可 能 会 导致 主 库 和 从 库 数据 的 不 一 致 。 


下 面 我 们 接着 分 析 write_ transaction to_binlog_events 函 数 的 工作 : 


1. bool MYSQL BIN LOG::write transaction to binlog events(group_commit_entry *entry) 
pA i 
// 将 待 提 交 到 binlog 的 事务 加 入 到 组 提交 队列 中 


3. bool is_leader= queue_for_group_commit(entry) ; 
4. if (is_leader) // leader 42 
5. trx_group_commit_leader(entry) ; 
6. else if (!entry->queued_by other) // follower 4z 
7. entry->thd->wait_for_wakeup_ready(); 
8. else 
9. { 
J% 


entry->queued by_other 为 true， 表 示 该 事务 被 其 他 事务 所 在 线程 加 入 到 了 队列 中 ， 
执行 到 这 里 ,说明 leader 已 经 完成 了 所 有 工作 ， 并 且 唤 醒 了 当前 线程 
*/ 
10. } 


// 没有 错误 ， 直 接 返 回 
11. if (likely(!entry->error) ) 
12. return 0; 


// 相关 的 错误 处 理 
人 


14. return 1; 
15.} 
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第 3 行 代 码 调用 queue_for_group_commit 函 数 将 竺 提交 到 binlog 的 事务 加 入 到 组 提交 队列 中 。 


第 4 行 到 第 5 行 代码 中 ， 我 们 将 组 提交 队列 中 第 一 个 事务 所 在 的 线程 作为 leader 线 程 调用 
trx_group_commit leader 函 数 ， 负 责 将 组 提交 队列 中 的 所 有 事务 提交 ， 然 后 调用 一 次 fsync 对 
binlog 进 行 持久 化 ， 最 后 唤醒 所 有 follower 线 程 继续 往 下 执行 。 


第 6 行 到 第 7 行 代码 中 ,所 有 的 follower 线 程 进 入 等 待 队 列 ， 直 到 leader 线 程 在 完成 工作 后 将 其 
唤醒 。 


第 8 行 到 第 10 行 代码 中 ， 如 果 entry->queued_by_other 为 true, 说 明 该 事务 已 经 被 其 他 事务 所 
在 的 线程 加 入 到 了 组 提交 队列 中 。 发 生 这 种 情况 的 原因 是 事务 之 间 的 提交 顺序 有 依赖 关系 ,这 在 
下 一 节 中 会 详细 介绍 。 


7.3.3 ”事务 排队 
接 下 来 ， 我 们 看 一 下 待 提交 的 事务 是 如 何在 组 提交 队列 中 排队 的 。 


下 面 列 出 了 MYSOL_BIN_L0G 类 的 queue_for _group_commit 函 数 的 代码 ， 该 函数 的 主要 功能 是 将 
事务 加 入 到 组 提交 队列 中 : 


as 


// sqi/log.cc 


1. bool MYSQL_BIN_LOG::queue_for_group_commit(group_commit_entry *orig_ entry) 
2. { 
3. group_commit_entry *entry, *orig queue; 
4 wait_for_commit *list, *cur, *last; 
5 wait_for_commit *wfc; 
6. wfc= orig entry->thd->wait_for_commit_ptr; 
7. orig_entry->queued_by_other= false; 
// 是 否 需要 等 待 其 他 事务 提交 完毕 后 才 提 交 
8. if (wfc && wfc->waiting for_commit) 
9. { 
/* 
在 有 锁 的 情况 下 二 次 检查 waiting_for_commit 的 值 ， 
避免 在 我 们 等 待 之 前 waiting_for_commit 的 值 被 改变 
*/ 
10. mysql_mutex_lock(&wfc->LOCK_wait_commit) ; 
11. if (wfc->waiting for_commit) 
12. { 


/* 
等 待 其 他 事务 提交 完毕 。 被 等 待 的 事务 会 将 当前 事务 加 入 到 
组 提交 队列 中 ,那么 当前 事务 的 queue_by_other 将 会 是 true 
*/ 


AE = 
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13. wfc->opaque_pointer= orig entry; 
14. do 
15. { 
16. mysql_cond_wait(&wfc->COND_wait_commit, 
17. &wfc->LOCK_wait_commit) ; 
18. } while (wfc->waiting for_commit) ; 
19. wfc->opaque_pointer= NULL; 
20. } 
21. mysql_mutex_unlock(&wfc->LOCK_wait_commit) ; 
22. } 
// 如 果 当 前 事务 已 经 被 等 待 提交 的 事务 加 入 到 组 提交 队列 中 ， 则 直接 返回 
23 . if (orig_entry->queued_by_other) 
24. DBUG_RETURN( false) ; 
// 获取 组 提交 队列 ， 并 且 获 取 锁 保护 
25. orig _entry->thd->clear_wakeup_ready(); 
26. mysql_mutex_lock(&LOCK_prepare_ ordered); 
27. orig queue= group _commit_queue; 
28. list= wfc; 
29. cur= list; 
30. last= list; 
31. entry= orig entry; 
32. for (53) 
33. { 
// 将 事务 加 入 到 组 提交 队列 
34. entry->next= group_commit_queue; 
35. group_commit_queue= entry; 
36. if (entry->cache_mngr->using xa) 
37. { 
38. run_prepare_ordered(entry->thd, entry->all); 
39. } 
// 如 果 没 有 事务 需要 等 待 orig_entry 提 交 完 成 后 才能 提交 ，cur 为 NULL 
40. if (!cur) 
41. break; 
/* 
接 下 来 处 理 等 待 在 CUT 上 的 所 有 事务 。 如 果 有 事务 A 需 要 等 待 CuT 提 交 后 才能 提交 ， 同 时 事务 B 需 要 
等 待 事务 A 提 交 后 才能 提交 ， 需 要 将 这 些 准 备 递 归 地 提交 到 binlog 的 事务 加 入 到 队列 中 
*/ 
42. if (cur->subsequent_commits_list) 
43. { 
44. bool have_lock; 
45. wait for commit *waiter; 
46. mysql_mutex_lock(&cur->LOCK_wait_commit) ; 
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47. 


48. 
49. 
50. 
51. 
52. 
53. 
54. 
55. 
56. 


57. 
58. 
59. 
60. 
61. 
62. 


63. 
64. 
65. 
66. 
67. 
68. 
69. 
70. 
71. 
72. 
73. 
74. 
75. 


76. 
77. 


78. 
79. 
80. 
81. 


have_lock= true; 


// 处 理 所 有 等 待 在 CUT 上 的 事务 

waiter= cur->subsequent_commits_list; 
cur->subsequent_commits_list= NULL; 
while (waiter) 


{ 
wait_for_commit *next= waiter->next_subsequent_commit; 
group _commit_entry *entry2= 
(group_commit_entry *)waiter->opaque_pointer; 
if (entry2) 
{ 
/* 
该 事务 (waiter) 准备 提交 到 binlog 中 ， 将 其 加 入 到 链表 的 尾部 ， 
这 样 外 部 的 循环 就 能 将 其 加 入 组 提交 队列 ， 
并 且 递 归 处 理 等 待 在 该 事务 上 的 其 他 事务 
*/ 
entry2->queued_by_other= true; 
last->next_subsequent_commit= waiter; 
last= waiter; 
} 
else 
{ 
// 唤醒 等 待 的 事务 
if (have_lock) 
{ 
have_lock= false; 
cur->wakeup_subsequent_commits_running= true; 
mysql_mutex_unlock(&cur->LOCK_wait_commit) ; 
} 
waiter->wakeup(0) ; 
} 


waiter= next; 

} 

if (have_lock) 
mysql_mutex_unlock(&cur->LOCK_wait_commit) ; 


} 


// 查看 链表 里 的 事务 是 否 全 部 处 理 完 
if (cur == last) 
break; 


// 处 理 链表 中 的 下 一 个 需要 加 入 到 组 提交 队列 的 事务 
cur= cur->next_subsequent_commit; 

entry= (group commit entry *)cur->opaque_pointer; 
DBUG ASSERT(entry != NULL); 
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82. if (opt binlog commit_wait_count > 0) 
83. mysql_cond_signal(&COND_prepare_ordered) ; 
84. mysql_mutex_unlock(&LOCK_prepare_ordered) ; 


/* 
如 果 orig_queue 为 空 ， 说 明 当 前 事务 是 组 提交 队列 中 的 第 一 个 事务 ， 
那么 当前 线程 将 成 为 leader 线 程 
*/ 
85. DBUG_RETURN(orig queue == NULL); 
86.} 
第 8 行 到 第 22 行 代码 说 明 ， 如 果 该 事务 需要 等 待 其 他 事务 提交 之 后 才能 提交 ， 那 么 在 当前 事 
务 加 入 到 组 提交 队列 之 前 ， 必 须 做 相应 的 等 待 。 第 13 行 到 第 19 行 代码 说 明 进 入 等 待 状态 。 


第 23 行 和 第 24 行 代码 说 明 ， 如 果 orig_entry->queued_by_other 为 true 表 示 当 前 事务 已 经 被 其 
他 事务 所 在 的 线程 加 入 到 组 提交 队列 中 。 这 种 情况 发 生 在 当前 事务 需要 等 待 其 他 事务 提交 后 才能 
提交 , 那么 当前 事务 所 在 的 线程 会 进入 等 待 状态 , 被 等 竺 事务 所 在 的 线程 在 将 自己 的 事务 加 入 到 
组 提交 队列 之 后 ， 也 会 将 所 有 等 竺 在 它 上 面 的 其 他 事务 按 顺 序 加 入 到 队列 中 ， 当 leader 线 程 将 组 
提交 队列 中 的 事务 按 顺 序 写 和 人 到 binlog 中 并 且 调 用 存储 引擎 的 commit_ordered 后 ， 会 唤醒 所 有 等 
待 的 follower 线 程 。 


第 26 行 代码 获取 全 局 锁 LOCK_prepare_ordered， 该 锁 在 这 里 是 为 了 保护 组 提交 队列 ， 防 止 多 
个 线程 同时 对 其 进行 操作 。 获 取 了 锁 保 护 之 后 ， 我 们 就 可 以 将 事务 添加 到 组 提交 队列 中 。 


第 32 行 到 第 81 行 代码 的 主要 工作 就 是 将 事务 添加 到 组 提交 队列 中 , 其 中 处 理 了 其 他 事务 需要 
等 待 当前 事务 提交 后 才能 提交 。 例如 , 事务 B 需 要 等 待 事务 A 提交 后 才能 提交 ,同时 事务 C 需 要 等 
待 事务 B 提 交 后 才能 提交 ， 那 么 这 三 个 事务 进入 组 提交 队列 的 顺序 应 该 是 A、B、C。 代码 中 的 两 
个 循环 就 是 为 了 处 理 这 种 递归 依赖 的 事务 之 间 人 队 顺 序 的 问题 。 


第 82 行 和 第 83 行 代码 处 理 用 户 设置 了 binlog_group_commit_wait_count 参 数 的 情况 。 当 用 户 
设置 了 该 参数 ,需要 等 待 组 提交 队列 中 至 少 有 该 参数 指定 个 数 的 事务 时 才 进 行 group commit 操 作 ， 
否则 leader 线 程 进入 等 待 。 这 里 是 通知 leader 线 程 ， 当 有 新 的 事务 加 入 到 组 提交 队列 中 时 ， 则 证 
leader 线 程 去 检查 是 否 满足 进行 组 提交 的 条 件 。 


第 85 行 代码 说 明 如 果 当 前 事务 是 组 提交 队列 中 的 第 一 个 寻 
为 leader 线 程 执行 组 提交 的 后 续 操 作 。 


务 , 那么 当前 事务 所 在 的 线程 将 作 


za 


=| 


7.3.4 _ leader 线 程 的 工作 


前 面 介 绍 过 ， 组 提交 队列 中 第 一 个 事务 所 在 的 线程 将 以 leader 线 程 的 身份 执行 队列 中 所 有 事 
务 的 写 binlog 操 作 以 及 binlog 的 fsync 操 作 ， 最 后 将 所 有 等 待 的 follower 线 程 唤醒 。 


下 面 给 出 了 leader 线 程 的 执行 函数 trx_group_commit _ leader 的 代码 ， 我 们 通过 分 析 该 函数 的 
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代码 来 了 解 leader 线 程 的 具体 工作 : 


// sqllog.cc 


1. void MYSQL BIN LOG::trx group commit leader(group commit entry *leader) 
2. { 

3 uint xid_count= 0; 

4 my off t UNINIT VAR(commit_offset) ; 

5. group _commit_entry *current, *last_in_queue; 

6 group_commit_entry *queue= NULL; 

7 bool check_purge= false; 

8 ulong binlog_id; 

9. uint64 commit_id; 

10. binlog id= 0; 


11. { 
/* 
由 于 需要 对 binlog 进 行 写 操作 ， 首 先 获取 LOCK_1o8g 锁 保护 。 
对 组 提交 队列 的 操作 需要 用 到 LOCK_prepare_ordered 锁 保护 


*/ 

12. mysql_mutex_lock(&LOCK_log) ; 

13. mysql_mutex_lock(&LOCK_prepare_ ordered) ; 
/* 


如 果 配 置 了 binlog commit wait cout 参数 ， 组 提交 队列 需要 
收集 一 定数 量 的 事务 才能 执行 group commit 操 作 。 

wait for sufficient _commits() 内 部 会 释放 并 且 重 新 获取 
LOCK_log##LOCK_prepare_ordered 


*/ 
14. if (opt binlog commit wait count) 
15. wait_for_sufficient_commits(); 
/* 


接 下 来 将 group_commit queue 的 内 容 放 到 cuUrrent 里 面 ， 
这 就 是 group commit 本 次 将 要 处 理 的 事务 集合 ， 

新 的 事务 在 LOCK_prepare_ ordered 锁 释放 之 后 

可 以 继续 添加 到 group_commit_queue 中 


ay 
16. current= group_commit_queue; 
17. group_commit_queue= NULL; 
18. mysql_mutex_unlock(&LOCK_prepare_ordered) ; 
19. binlog id= current_binlog id; 


// 由 于 队列 中 的 元 素 是 逆序 的 ， 需要 进行 反 转 


20. last_in_queue= current; 

21. while (current) 

22. { 

23. group_commit_entry *next= current->next; 


24. current->next= queue; 
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25. queue= current; 

26. current= next; 

27. } 

28. DBUG_ASSERT(leader == queue); // leader 应 该 是 queue 的 第 一 个 元 素 

29. } 

30. if (likely(is_open())) // 应 该 一 直 为 true 

31. { 

32. commit_id= (last in queue == leader ? 0 : (uint64)leader->thd->query_id); 
/* 


将 队列 中 的 事务 提交 到 binlog 中 。 


需要 注意 的 是 ， 由 于 所 有 的 操作 都 是 由 leadeT 线 程 完成 的 ， 
所 以 需要 保存 每 个 事务 提交 过 程 中 的 错误 码 ， 
等 待 事务 所 在 的 线程 被 leader 线 程 唤醒 后 对 其 进行 检查 ， 然 后 执行 相应 的 操作 


*/ 

33. for (current= queue; current != NULL; current= current->next) 
34. { 
35. binlog cache mngr *cache_mngr= current->cache_mngr; 
36. if ((current->error= write transaction or stmt(current, commit_id))) 
37. current->commit_errno= errno; 
38. strmake_buf(cache_mngr->last_commit_pos_file, log file name); 
39. commit_offset= my_b_write_tell(&log file); 
40. cache_mngr->last_commit_pos_offset= commit_offset; 
41. if (cache_mngr->using xa && cache_mngr->xa_xid) 
42. { 

/* 

如 果 存 储 引 掌 不 支持 Commit checkpoint_Tequest， 往 binlog 文 件 中 
写 入 事务 时 ， 需 要 增加 该 binlog 文 件 对 应 的 计数 器 计数 

*/ 
43. if (current->need_unlog) 
44. { 
45. xid_count++; 
46. cache_mngr->need_unlog= true; 
47. cache_mngr->binlog_id= binlog_id; 
48. } 
49. else 
50. cache_mngr->need_unlog= false; 
51. cache_mngr->delayed_error= false; 
52. } 
53. } 


// 调用 一 次 fsync 对 binlog 进 行 持 久 化 
54. bool synced= 0; 
55. if (flush_and_sync(&synced) ) 
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56 . 


57. 
58. 
59. 
60. 
61. 
62. 
63. 
64. 
65. 
66. 
67. 
68. 
69. 
70. 
71. 
72. 
73. 


74. 
75. 
76. 
77. 
78. 
79. 
80. 
81. 
82. 
83. 
84. 
85. 


86. 
87. 
88. 


89. 
90. 
91. 
92. 


93. 
94. 


} 


// 如 果 发 生 错误 ， 保 存 错误 码 
for (current= queue; current != NULL; current= current->next) 


{ 


if (!current->error) 


{ 
current->error= ER_ERROR_ON_WRITE; 
current->commit_errno= errno; 
current->error_cache= NULL; 

} 


bool any_error= false; 

bool all error= true; 

for (current= queue; current != NULL; current= current->next) 

{ 

if (!current->error && 

RUN_HOOK(binlog storage, after_flush, 
(current->thd, log file_name, 
current->cache_mngr->last_commit_pos_offset, synced) )) 


{ 
current->error= ER_ERROR_ON_WRITE; 
current->commit_errno= -1; 
current->error_cache= NULL; 
any_error= true; 

} 

else 


all error= false; 


} 


if (any_error) 
sql_print_error("Failed to run "after flush' hooks"); 


// binlog 有 更 新 ， 通 知 潜在 的 等 待 者 (例如 复制 中 的 dump 线 程 ) 
if (!all error) 
signal_update(); 


// 增加 该 binlog 文 件 对 应 的 计数 器 计数 
if (xid count > 0) 


{ 
} 


mark_xids_active(binlog id, xid_count); 


// 检查 binlog 的 大 小 ， 决 定 是 否 进行 切 换 
if (rotate(false, &check_purge)) 


{ 
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95. leader->cache_mngr->delayed_error= true; 

96. my error(ER_ERROR_ON WRITE, MYF(ME NOREFRESH),name, errno); 
97. check_purge= false; 

98. } 

99. } 


100. mysql _mutex_lock(&LOCK_commit_ordered) ; 
101. last commit pos offset= commit_offset; 


/* 
在 获取 LOCK_commit_ordered 锁 之 前 不 能 释放 LOCK_log 锁 ， 
否则 下 一 个 组 提交 操作 可 能 在 我 们 之 前 执行 commit_ordered， 
导致 事务 在 引 党 内 部 的 提交 顺序 与 binlog 中 的 顺序 不 一 致 
*/ 
102. mysql mutex unlock(&LOCK log); 


// 统计 组 提交 操作 的 执行 次 数 
103. ++num_group_commits; 


// 在 引 营 内 部 按 顺 序 执行 commit ordered 操 作 ， 然 后 唤醒 所 有 follower 线 程 
104. current= queue; 
105. while (current != NULL) 


106. { 
107. group_commit_entry *next; 
// 统计 提交 了 多 少 个 事务 
108. ++num_commits ; 
/* 
对 于 事务 的 两 阶段 提交 协议 ,为 了 保证 事务 在 存储 引擎 内 部 的 提交 顺序 
和 binlog 中 一 致 ， 需 要 根据 事务 在 组 提交 队列 中 的 顺序 调用 存储 
引 掌 的 commit_ordered 接 口 
*/ 
109. if (current->cache_mngr->using xa && !current->error && 
DBUG_EVALUATE_IF("skip commit_ordered", 0, 1)) 
110. run_commit_ordered(current->thd, current->al1); 
/* 
在 唤醒 current 所 在 线程 之 前 ， 取 出 current->next 的 值 ， 
因为 current 所 在 的 线程 被 唤醒 后 可 能 会 修改 next 的 值 
*/ 
111. next= current->next; 
112. if (current != leader) // leader 线 程 自己 不 需要 唤醒 
113. { 
114. if (current->queued_by other) 
115. current->thd->wait_for_commit_ptr->wakeup(current->error) ; 
116. else 
117. current->thd->signal_wakeup_ready(); 


118. } 
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119. current= next; 

120. } 

121. mysql_mutex_unlock(&LOCK_commit_ordered) ; 
/* 


如 果 check_purge 为 true， 说 明 binlog 发 生 了 切换 ， 
请 求 存储 引擎 持久 化 所 有 提交 的 事务 ， 加 快 崩溃 恢 复 的 速度 
*/ 
122. if (check_purge) 
123. checkpoint_and_purge(binlog id); 


124. DBUG_VOID_RETURN; 

125.} 

第 12 行 代码 获取 了 锁 LOCK_log, 该 锁 用 于 对 binlog 进 行 保护 ， 因 为 后 续 我 们 会 对 binlog 进 行 写 
操作 。 

第 13 行 代码 获取 了 锁 LOCK_prepare_ordered, 这 是 一 个 全 局 锁 , 它 的 作用 是 保护 组 提交 队列 。 

第 14 行 和 第 15 行 代码 说 明 ， 如 果 配 置 了 MariaDB 的 binlog_commit_wait_count 参 数 ， 会 检查 
组 提交 队列 中 的 总 事务 数 是 否 大 于 等 于 该 参数 指定 的 值 ， 如果 小 于 该 值 ， 就 需要 等 待 ， 直 到 队列 
中 的 事务 数 大 于 等 于 该 值 , 或 者 等 待 的 时 间 超 过 了 参数 binlog_commit_wait_usec 指 定 的 值 。 参数 
binlog_commit_wait_count 的 默认 值 是 9， 所 以 默认 情况 下 ， 即 使 组 提交 队列 中 只 有 一 个 事务 也 不 会 
等 待 。wait for sufficient_commits 函 数 内 部 会 释放 并 且 重新 获取 LOCK log 和 LOCK_prepare_ordered。 

第 16 行 和 第 17 行 代码 是 两 次 简单 的 指针 赋值 操作 ， 将 组 提交 队列 中 的 事务 放 入 current 队 列 
中 ， 并 且 清 空 组 提交 队列 ， 本 次 group commit 的 后 续 所 有 操作 都 是 针对 current 队 列 来 进行 的 。 

第 18 行 代码 用 于 释放 锁 LOCK_prepare_ordered, 那么 新 的 事务 可 以 加 入 到 group commit 队 列 中 
来 ， 新 加 入 的 事务 会 是 下 一 次 binlog group commit 操 作 的 对 象 。 我 们 可 以 看 到 ， 这 里 
LOCK_prepare_ordered 锁 持 有 的 时 间 是 非常 短暂 的 ， 不 会 影响 新 的 事务 添加 到 组 提交 队列 中 来 。 


第 30 行 代码 用 于 判断 binlog 是 否 处 于 开启 状态 。 

第 33 到 第 53 行 代码 的 主要 工作 是 将 队列 中 的 事务 按 顺序 写 和 人 binlog 中 的 I0_CACHE 缓 存 中 。 

第 55 行 代码 用 于 将 I0_CACHE 绥 存 中 的 内 容 刷 新 到 binlog 文 件 中 ， 并 且 调 用 一 次 fsync 操 作对 
binlog 进 行 持 久 化 。 在 此 之 后 ， 如 果 系 统 发 生 崩 演 ， 事 务 可 以 根据 binlog 的 内 容 进 行 恢复 。 

第 93 行 代码 中 , 由 于 我 们 对 binlog 进 行 了 写 人 操作 , 所 以 需要 检查 当前 binlog 文 件 的 大 小 , 如果 
它 大 于 等 于 max_binlog_size 设 定 的 值 ，binlog 需 要 进行 切换 操作 ,新 建 binlog 文 件 以 记录 新 的 事务 。 

第 100 行 到 第 121 行 代码 的 主要 工作 是 按照 事务 在 binlog 中 的 顺序 调用 存储 引擎 的 
commit_ordered 接 口 ( 该 接口 可 以 保证 事务 在 存储 引擎 内 部 的 提交 顺序 ), 然后 唤醒 所 有 的 follower 
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线程 。 第 100 行 到 第 102 行 首先 获取 了 锁 LOCK_commit ordered， 然 后 释放 锁 LOCK log ， 这 两 个 操作 
的 顺序 是 不 能 颠倒 的 ， 如 果 其 侄 的话， 下 一 个 group commit 操 作 可 能 跑 到 本 次 group commit 操作 
的 前 面 获取 LOCK_commit_ordered 锁 ， 并 且 执 行 存储 引 敬 的 commit_ordered 接 口 ， 此 时 事务 在 存储 
引擎 内 部 的 提交 顺序 就 和 binlog 中 的 顺序 不 一 至 了 ， 这 会 导致 数据 在 主 库 和 从 库 的 不 一 致 。 


第 103 行 代码 用 于 统计 group commit 操 作 的 执行 次 数 ， 对 应 于 前 面 提 到 的 binlog group_ commits 
变量 。 第 108 行 代码 用 于 统计 提交 的 事务 数 ， 对 应 于 MariaDB 的 binlog_commits 变 量 。 第 109 行 和 第 
110 行 代码 说 明 , 如 果 采 用 的 是 事务 的 两 阶段 提交 协议 , 就 按照 事务 写 和 binlog 的 顺序 调用 存储 引 苟 
的 commit_ordered 函 数 (该 函数 在 7.3.5 节 中 介绍 )， 这 样 保证 了 存储 引擎 内 部 的 提交 顺序 和 binlog 中 
的 顺序 一 致 。 第 112 行 到 第 118 行 代码 用 于 唤醒 等 待 的 follower 线 程 ， 让 它们 继续 执行 。 


第 122 行 和 第 123 行 代码 说 明 , 如 果 binlog 发 生 了 切换 ,请 求 存 储 引 擎 建立 检查 点 。 我 们 之 前 介绍 
过 ， 在 MariaDB 中 事务 的 两 阶段 提交 分 为 3 个 步骤 : 事务 在 引擎 内 部 准备 好 ， 事 务 提交 到 binlog 中 以 
及 事务 在 引擎 内 部 提交 。 为 了 数据 的 安全 性 , 每 一 步 都 需要 调用 fsync 将 数据 持久 化 。 由 于 在 存储 引 
擎 内 部 已 经 准备 好 的 事务 可 以 根据 binlog 恢 复 ， 所 以 通常 情况 下 第 三 步 的 fsync 操 作 省 略 了 。 同 时 ， 
为 了 加 快 崩 省 恢复 的 速度 ，MariaDB 会 在 binlog 发 生 切 换 操 作 时 ， 请 求 存 储 引擎 建立 检查 点 ， 这 样 在 
月 演 恢复 时 ，MariaDB 只 需要 扫描 最 新 的 一 个 binlog 就 可 以 了 。 


7.3.5 ”prepare_ordered 和 commit_ ordered 接 口 


在 组 提交 的 过 程 中 ,， 有 可 以 并 行 执行 的 部 分 , 也 有 需要 串 行 执 行 的 部 分 。 为 了 让 存储 引擎 和 
binlog 方 便 地 参与 并 行 和 串 行 的 部 分 ，MariaDB 为 存储 引擎 添加 了 两 个 接口 : prepare_ordered 和 
commit_ordered。 添 加 这 两 个 接口 的 目的 是 让 它们 执行 group commit 的 串 行 部 分 ,而 原 有 的 prepare 
和 commit 接 口 执行 group commit 的 并 行 部 分 。 


prepare_ordered 国 数 在 prepare 男 数 执行 后 调用 。 在 一 个 引 警 内部， 同一 时 刻 只 能 有 一 个 事务 
调用 该 函数 ， 也 就 是 说 该 函数 必须 串 行 调用 。 调 用 prepare_ordered 函 数 ， 保 证 了 事务 在 存储 引擎 
和 binlog 中 的 准备 顺序 一 致 。commit_ordered 函 数 在 commit 函 数 调用 前 调用 。 和 prepare_ordered 类 
似 ， 调 用 commit_ordered 表 数 保 证 了 事务 在 所 有 存储 引擎 和 binlog 中 的 提交 顺序 一 致 。 


由 于 prepare_ordered 和 commit_ordered 必 须 串 行 执行 , 所 以 在 这 两 个 函数 内 部 应 该 做 尽 可 能 
少 的 事情 ， 将 慢 速 的 工作 放 和 人 prepare 和 commit 中 进行 ， 保 证 这 两 个 函数 能 够 快速 执行 。 在 
commit ordered 函 数 返 回 后 ， 事 务 在 引擎 内 被 标记 为 已 提交 ， 同 时 调用 commit_ordered 的 顺序 也 
是 事务 在 引擎 内 部 的 提交 顺序 ( 例如 ， 在 InnoDB 中 ，commit_ ordered 函 数 会 将 事务 的 提交 顺序 记 
录 到 事务 日 志 的 缓冲 区 中 )。 


prepare_ordered 和 commit_ordered 只 会 在 事务 使 用 两 阶段 提交 协议 的 时 候 被 调用 。 对 于 
MariaDB/MySQL 来 说 ， 如 果 关 闭 了 binlog， 由 于 内 部 采取 的 是 一 阶段 事务 提交 协议 ， 所 以 这 种 情 
况 下 这 两 个 函数 是 不 会 被 调用 的 。 
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prepare_ordered 和 commit_ordered 这 两 个 接口 是 可 选 的 ， 存 储 引擎 可 以 选择 性 地 实现 这 两 个 
接口 。 如 果 存 储 引擎 选择 不 实现 某 个 接口 ， 那 么 对 于 该 存储 引擎 来 说 ， 在 group commit 的 相应 阶 
段 就 没有 了 顺序 的 保证 。 例 如 ，InnoDB 在 准备 阶段 不 需要 保证 顺序 ， 所 以 InnoDB 没 有 实现 
prepare_ordered 函 数 ， 但 是 实现 了 commit_ ordered 函 数 ， 这 可 以 保证 事务 在 binlog 中 的 顺序 和 
InnoDB 内 部 的 提交 顺序 一 致 。 


7.4 小 结 


本 章 中 ,我 们 详细 分 析 了 MariaDB 的 binlog group commit 技 术 。binlog group commit 的 基本 思 
想 是 多 个 待 提交 的 事务 之 间 共 享 一 次 fsync 操 作对 binlog 进 行 持久 化 ， 这 样 就 将 fsync 的 开销 平反 
到 了 多 个 事务 上 。 


binlog group commit 技 术 在 具有 大 量 并 发 待 提交 事务 的 场景 下 能 够 提高 单位 时 间 内 事务 的 提 
交 数 ， 从 而 提高 系统 的 整体 性 能 。 


复 ipl 


MariaDB/MySQL 的 复制 功能 允许 你 从 一 台 服 务 器 将 数据 复制 到 另 一 台 服 务 器 上 ， 让 两 台 服 
务 右 的 数据 保持 同步 。 这 有 利于 我 们 构造 高 可 用 的 应 用 ， 也 为 高 性 能 、 可 扩展 性 、 备 份 、 灾 难 恢 
复 等 工作 提供 了 可 行 的 方案 。 从 版 本 5.5 开 始 ，MariaDB/MySQL 以 插件 的 形式 支持 半 同 步 复 制 。 
MySQL 的 延迟 复制 功能 可 以 指定 从 库 的 数据 相对 于 主 库 的 数据 有 一 定 的 延 时 ， 利 用 这 一 特性 可 
以 很 容易 实现 数据 库 的 回 滚 功能 。MariaDB 10.0 引 入 了 多 源 复 制 ， 人 允许 一 个 从 数据 库 同 步 多 个 数 
据 源 的 数据 。 在 本 章 中 ,我们 会 对 这 些 内 容 进行 详细 的 讲解 。 

本 章 的 内 容 主 要 包括 : 
口 简介 
口 复制 的 作用 
口 复制 的 工作 原理 
口 复制 的 配置 
口 复制 的 实现 
口 半 同 步 复制 
口 并 行 复 制 
口 多 源 复制 
DGTID 


8.1 简介 


MariaDB/MySQL 的 复制 功能 支持 多 种 不 同 结构 的 主 从 配置 ， 包 括 一 主 一 从 、 一 主 多 从 、 从 
库 同时 又 可 以 是 其 他 库 的 主 库 ， 等 等 。MariaDB 在 10.0 版 本 中 还 引入 了 多 源 复制 功能 ， 可 以 为 一 
个 从 库 配 置 多 个 数据 源 , 这 样 从 库 就 拥有 多 个 主 库 的 数据 。 多 源 复制 可 以 很 方便 地 把 不 同 机 器 上 
的 数据 聚集 到 一 起 进行 分 析 或 者 备份 等 工作 。 


MariaDB/MySQL 的 复制 功能 是 基于 binlog 的 ，binlog 记 录 了 数据 库 的 库 表 结 构 变 更 以 及 表 数 
据 的 所 有 修改 情况 。 从 库 获取 主 库 的 binlog 内 容 ， 然 后 在 本 地 重 放 ， 达 到 拥有 和 主 库 相 同 数据 的 
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目的 。 根 据 主 库 设置 的 binlog 格 式 的 不 同 ， 复 制 分 为 基于 行 的 复制 (binlog 格 式 为 RON ) 和 基于 语 
句 的 复制 (binlog 格 式 为 STATEMENT )。 基 于 语句 的 复制 是 在 MySQL 3.23 中 引入 的 ， 而 基于 行 的 复 
制 是 MySQL 5.1 版 本 才 引 入 的 。 由 于 ROW 格式 的 binlog 产 生 的 binlog 文 件 比 STATEMENT 格 式 大 ， 所 以 
基于 行 的 复制 产生 的 网 络 流量 较 高 , 这 在 网 络 状 况 不 是 很 好 的 环境 下 可 能 会 使 主 库 和 从 库 之 间 产 
生 较 大 的 延 时 , 但 RowW 格 式 的 binlog 具 有 和 窜 等 性 ， 所 以 基于 行 的 复制 被 认为 是 最 安全 的 。 不管 是 基 
于 语句 的 复制 还 是 基于 行 的 复制 , 都 推荐 在 网 络 环 境 比较 好 的 情况 下 使 用 复制 功能 , 这 样 就 能 
证 从 库 和 主 库 之 间 的 数据 具有 较 低 的 延 时 。 


启用 复制 功能 并 不 会 增加 服务 器 太 多 的 开销 , 主要 就 是 开启 binlog 带 来 的 开销 (binlog 文 件 的 
追加 写 操作 开销 。 如 果 配 置 了 sync_bin1og=1 参 数 , 还 包括 系统 调用 fsync 带 来 的 开销 )。 相 对 于 复 
制 带 来 的 好 处 ， 这 么 少 的 开销 还 是 值得 的 。 


MariaDB/MySQL 的 复制 功能 具有 向 后 兼容 性 。 由 于 较 新 版 本 的 MariaDB/MySQL 的 binlog 中 
可 能 会 引入 新 的 事件 类 型 ， 因 此 以 较 新 版 本 的 MariaDB/MySQL 作 为 从 库 的 时 候 可 以 识别 并 处 理 
老 版 本 MariaDB/MySQL 的 所 有 binlog 事 件 。 相 反 ， 如 果 以 较 新 版 本 的 MariaDB/MySQL 作 为 主 库 ， 
而 较 老 版 本 的 MariaDB/MySQL 作 为 从 库 ，binlog 中 可 能 包含 不 能 识别 的 事件 类 型 从 而 引发 错误 。 
推荐 在 使 用 复制 功能 时 ,保持 主 库 和 从 库 使 用 同样 版 本 的 MariaDB/MySQL， 这 样 就 不 会 由 于 版 
本 不 一 致 而 产生 问题 。 


MariaDB/MySQL 的 复制 功能 是 单 向 的 ， 是 异步 进行 的 。MariaDB/MySQL 从 5.5 开 始 ， 以 插件 
形式 引入 了 半 同 步 复 制 功能 。 当 主 库 提交 一 个 事务 之 后 , 只 有 当 该 事务 传播 到 至 少 一 个 从 库 上 并 
且 写 入 到 磁盘 中 之 后 , 该 事务 在 主 库 上 才 返 回 给 客户 端 。 半 同步 复制 能 够 最 大 限度 地 保证 主 库 和 
从 库 之 间 数 据 的 一 致 性 , 但 降低 了 系统 的 整体 性 能 。 在 本 章 后 续 内 容 中 , 我 们 将 详细 介绍 半 同 步 
复制 功能 。 


MySQL 从 5.6 开 始 支持 延迟 复制 功能 ， 通 过 配置 延迟 复制 ， 能 够 保证 从 库 的 数据 比 主 库 的 数 
据 延 迟 指定 的 时 间 。 你 可 以 通过 MySQL 的 延 时 复制 功能 来 实现 数据 库 回 滚 功 能 。 


8.2 复制 的 作用 
复制 功能 的 一 些 常 见 用 途 如 下 所 示 。 


口 水 平 扩展 。 配 置 多 个 从 库 ， 将 所 有 的 读 请 求 都 在 从 库 上 处 理 ， 主 库 只 负责 写 操作 ， 这 能 
在 一 定 程度 上 提高 主 库 的 写 效 率 。 此 外 ， 也 可 以 通过 增加 从 库 的 个 数 来 达到 提高 读 请 求 
的 吞吐 率 的 目地 。 这 在 读 密 集 型 的 场景 中 很 有 价值 。 

口 数据 备份 。 由 于 从 库 复 制 了 主 库 的 所 有 内 容 ， 同 时 复制 过 程 可 以 随时 停止 ， 并 且 可 以 重 
新 开启 ， 这 样 我 们 就 可 以 停止 从 库 的 复制 工作 ， 对 从 库 进行 备份 工作 ， 然 后 重新 开启 复 
制 工作 。 这 样 就 能 在 不 影响 主 库 性 能 的 情况 下 实现 数据 的 备份 。 
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口 数据 分 析 。 如 果 直 接 在 主 库 上 进行 数据 分 析 等 操作 ， 必 然 会 对 主 库 的 性 能 产生 严重 的 影 
响 。 有 了 复制 功能 ， 我 们 可 以 将 数据 分 析 工 作 应 用 到 从 库 上 ， 数 据 分 析 结 束 之 后 重新 开 
局 复制 功能 。 

口 数据 分 布 。 当 位 于 北京 总 部 的 同事 想 使 用 你 位 于 南京 数据 节点 上 的 数据 ， 而 你 又 不 想 他 
们 直接 访问 你 的 数据 库 时 ， 可 以 通过 配置 复制 功能 在 北京 的 数据 节点 上 配置 一 个 从 节点 ， 
将 主 库 的 数据 复制 到 从 库 上 ， 让 他 们 直接 访问 从 库 。 

口 高 可 用 性 。 复 制 功能 能 够 解决 单 点 故障 问题 。 关 掉 主 库 之 后 将 业务 切换 到 从 库 上 ， 从 库 
继续 提供 服务 ， 这 对 构造 高 可 用 的 服务 提供 了 有 力 的 支撑 。 


8.3 复制 的 工作 原理 


本 节 中 ， 我们 概要 讲解 复制 的 基本 工作 原理 ， 接 着 介绍 中 断 日 志 (relay-log ) 的 作用 以 及 
masterinfo 文 件 和 relay-log.info 文 件 的 作用 。 


8.3.1 概要 


MariaDB/MySQL 的 复制 功能 是 基于 binlog 进 行 的 。 每 个 从 库 都 会 建立 一 个 到 主 库 的 连接 , 接 
收 主 库 的 binlog 内 容 ， 然 后 在 本 地 重 放 ， 使 从 库 和 主 库 之 间 的 数据 达到 同步 的 状态 。 每 个 从 库 在 
本 地 都 记录 了 当前 的 复制 进度 以 及 连接 到 主 库 所 需要 的 信息 等 内 容 ， 所 以 你 可 以 随时 调用 STOP 
SLAVE 命 令 停 止 从 库 的 复制 工作 ， 然 后 在 完成 备份 或 者 数据 分 析 等 工作 之 后 ， 再 使 用 START SLAVE 
命令 重新 开启 复制 功能 。 


MariaDB/MySQL 的 复制 工作 主要 由 主 库 上 的 master dump 线 程 、 从 库 上 的 slave IO 线程 以 及 
slave SQL 线程 来 完成 的 。 


当 从 库 连 接 到 主 库 上 时 ， 主 库 会 创建 一 个 master dump 线 程 ， 该 线程 负责 将 binlog 的 内 容 发 送 
给 从 库 。 你 可 以 在 主 库 上 执行 SHOW PROCESSLIST 命 令 来 查看 到 该 线程 : 


mysql> SHOW PROCESSLIST; 


| 1 | root | localhost:56608 ieee | Query | 0 | init | 

| 4 | slave | localhost:56642 ee | Binlog Dump | 11 | Master has sent... | 

+------- +-------- +-------------------- +-------- +---------------- +------ +----------------------- 十 

当 在 从 库 上 执行 START SLAVE 语 句 来 开启 复制 功能 时 ,会 创建 一 个 slave IO 线程 和 一 个 slave 
SQL 线程 。slave IO 线程 负责 连接 到 主 库 ， 然 后 接收 主 库 master dump 线 程 发 送 过 来 的 binlog 内 容 ， 
写 到 本 地 的 relay-log 中 。slave SQL 线程 负责 重 放 relay-log 中 的 内 容 ， 将 主 库 的 所 有 修改 反映 到 从 
库 上 。 
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在 从 库 上 执行 SHOW PROCESSLIST 或 者 SHOW SLAVE STATUS 命令 ,可 以 查看 slave IO 线程 和 slave SQL 
线程 是 否 在 运行 ， 相 关 代码 如 下 : 


mysql> SHOW SLAVE STATUS \G; 
DEAR AA A AAA A A AAA AAR 1. row ARR AK A KO KK OK KKK KKK 
Slave_I0 State: Waiting for master to send event 
Master_Host: 127.0.0.1 
Master_User: slave 
Master Port: 3306 
Connect_Retry: 60 
Master_Log File: mysql-bin.000001 
Read Master Log Pos: 151 
Relay_Log File: slave-relay-log.000002 
Relay_Log Pos: 361 
Relay Master Log File: mysql-bin.000001 
Slave_I0 Running: Yes 
Slave_SQL_Running: Yes 


SHOW SLAVE STATUS 命令 除了 能 查看 slave IO 线程 和 slave SQL 线程 的 运行 状态 外 ， 还 可 以 查看 
复制 的 进度 信息 。 从 上 面 的 输出 信息 可 以 看 出 ，slave IO 线程 已 经 接收 到 了 主 库 mysql-bin.000001 
文件 的 偏 移 量 为 151 的 地 方 ， 重 放 过 程 已 经 执行 到 了 本 地 slave-relay-log.000002 文 件 的 偏 移 量 为 
361 的 地 方 。 


复制 的 大 概 工作 过 程 可 以 简单 总 结 为 如 下 3 步 ， 如 图 8-1 所 示 。 
主 库 


| Os slave IO 线程 | 
git SQL 线程 


a 


图 8-1 复制 原理 图 


(1) 主 库 将 所 有 的 修改 以 事件 的 形式 记录 到 binlog 中 ， 主 库 的 master dump 线 程 负责 发 送 binlog 
内 容 到 从 库 。 
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(2) 从 库 的 slave IO 线程 将 接收 到 的 binlog 事 件 记 录 到 本 地 的 relay-log 中 。 
(3) 从 库 的 slave SQL 线程 重 放 relay-log 中 的 事件 。 


在 MySQL 4.0 之 前 ， 复 制 是 通过 两 个 线程 而 不 是 3 个 线程 完成 的 。 在 从 库 端 ， 只 有 一 个 线程 
同时 负责 接收 主 库 发 来 的 binlog 事 件 以 及 事件 的 重 放 工作 ， 所 以 没有 使 用 relay-log。 这 样 做 的 缺 
点 就 是 ， 当 binlog 事 件 重 放 速 度 较 慢 时 ， 会 直接 影响 读 取 binlog 事 件 的 进行 。 将 事件 的 读 取 和 重 
放 工 作 分 别 放 在 不 同 的 线程 里 来 做 ， 实 现 了 事件 获取 和 事件 重 放 的 解 夭 ， 这 两 个 动作 是 完全 有 异 
步 执行 的 。 


8.3.2 relay-log 


在 复制 的 过 程 中 ， 从 库 的 slave IO 线程 获取 主 库 的 binlog 事 件 后 ， 将 其 写 人 到 本 地 的 relay-log 
中 ， 而 slave SQL 线程 从 relay-log 读 取 事 件 并 进行 重 放 。relay-log.info 文 件 记 录 了 slave SQL 线程 重 
放 的 进度 等 信息 , 保证 了 停止 复制 之 后 再 重新 开启 复制 时 , 复制 工作 能 够 从 正确 的 位 置 开始 。 请 
不 要 手动 修改 relay-log.info 文 件 的 内 容 ， 否 则 将 会 出 现 不 可 预期 的 问题 。 


类 似 于 binlog 由 多 个 记录 数据 库 修改 的 binlog 文 件 和 一 个 管理 这 些 文件 的 index 文 件 组 成 ， 
relay-log 由 一 系列 包含 了 主 库 binlog 事 件 的 relay-log 文 件 和 一 个 管理 这 些 文件 的 relay-log.index 文 
件 组 成 。relay-log 文 件 具 有 和 binlog 文 件 一 样 的 格式 , 同样 可 以 使 用 mysqlbinlog 工 具 来 查看 其 中 的 
内 容 。 通 过 配置 relay-log="file-name" 和 relay-log-index="file-name" 这 两 个 参数 ， 可 以 指定 
relay-log 文 件 和 relay-log.index 文 件 的 名 称 。 如 果 没 有 设置 这 两 个 参数 ， 默 认 会 使 用 主机 名 来 作为 
relay-log 和 relay-log.index 文 件 名 的 前 级。 因此 ， 当 你 使 用 主机 名 来 命名 relay-log 时 ， 在 复制 中 途 
更 改 主 机 名 可 能 导致 因 找 不 到 relay-log 文 件 而 引发 错误 。 


下 面 我 们 给 出 了 relay-log 会 发 生 切 换 的 几 种 情况 


O slave IO 线程 启动 的 时 候 。 这 发 生 在 执行 START SLAVE 语 句 或 者 MariaDB/MySQL 启 动 时 。 

口 执行 FLUSH LOGS 语 句 刷新 日 志 时 。 

O 达到 参数 max_relay log _ size 指定 的 大 小 时 。 当 max_relay log size 为 0 时 ， 以 参数 
max_binlog_size 的 值 作为 max_relay_log_size 的 值 。 


slave SQL 线程 在 重 放 完 一 个 relay-log 文 件 中 的 所 有 事件 时 ， 会 自动 删除 该 relay-log 文 件 ， 所 
以 没有 显示 删除 relay-log 的 命令 。 


8.3.3 master.info 文 件 和 relay-log.info 文 件 


开启 复制 功能 时 ， 在 从 库 的 数据 目录 下 会 创建 一 个 masterinfo 文 件 和 一 个 relay-log.info 文 件 ， 
它们 用 来 记录 复制 的 工作 进度 。 
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口 master.info 文 件 : 该 文件 用 来 保存 主 库 的 主机 名 和 端口 信息 以 及 登录 到 主 库 所 需要 的 账 
号 和 密码 。 这 里 需要 注意 的 是 ， 账 号 和 密码 都 是 以 文本 的 格式 保存 在 master.info 文 件 中 ， 
所 以 在 实际 应 用 中 需要 特别 注意 这 一 点 ， 以 防 出 现 安全 问题 。 在 8.4 节 中 我 们 会 提 到 ， 最 
安全 的 做 法 是 为 复制 单独 创建 一 个 账号 ， 仅 仅 赋 予 该 账号 REPLICATION SLAVE 权 限 。 
master.info 文 件 还 以 binlog 文 件 名 和 偏 移 量 的 形式 记录 了 从 库 接收 主 库 binlog 事 件 的 进度 
信息 ， 有 了 这 些 信息 ，slave IO 线程 就 知道 下 次 该 从 哪里 开始 获取 主 库 的 binlog 事 件 。 

O relay-log.info 文 件 : 该 文件 用 来 记录 从 库 的 重 放 进 度 , 所 以 在 停止 复制 然后 重新 启动 复制 
的 时 候 ，slave SQL 线程 知道 该 从 哪里 重新 开始 自己 的 工作 。 


配置 master-info-file="file-name" 和 relay-log-info-file="file-name" 参 数 ， 可 以 改变 
masterinfo 文 件 和 relay-log.info 文 件 的 名 称 。 


在 MySQL 5.6 以 及 MariaDB 10.0 中 ， 还 可 以 通过 配置 master-info-repository=TABLE (默认 为 
FILE ) 来 使 用 表 mysql1.slave_master_info 代 替 masterinfo 文 件 ， 存 储 复制 相关 的 信息 。 同 样 ， 通 
过 配置 relay-log-info-repository=TABLE ， 可 以 用 表 mysql.slave relay log info 来 代替 relay- 
log.info 文 件 。 


正 是 有 了 masterinfo 文 件 和 relay-log.info 文 件 , 我 们 才能 方便 地 使 用 STOP SLAVE 停 止 复制 工作 ， 
在 进行 一 些 备 份 或 者 计算 等 工作 之 后 使 用 START SLAVE 重 新 恢复 复制 工作 。 


8.4 复制 的 配置 


在 这 一 节 中 ， 我 们 将 介绍 在 实际 应 用 中 应 该 如 何 配置 MariaDB/MySQL 的 复制 功能 。 


8.4.1 在 新 安装 的 主 库 和 从 库 上 配置 复制 


通常 ， 配 置 MariaDB/MySQL 的 复制 功能 很 简单 ， 但 由 于 应 用 场景 的 不 同 而 存在 一 些 差异 。 
如 果 是 对 新 安装 的 主 库 和 从 库 配 置 复制 功能 ， 基 本 可 以 分 为 以 下 4 步 。 


(1) 配置 主 库 。 

(2) 配置 从 库 。 

(3) 创建 用 于 复制 的 账号 。 
(4) 开启 复制 。 

下 面 详细 介绍 这 4 个 步骤 。 
1. 配置 主 库 


在 主 库 上 ， 首 先 必须 开启 你 的 binlog， 其 次 必须 配置 一 个 唯一 的 server_id。 如 果 没 有 配置 这 
些 参数 ， 需 要 配置 它们 之 后 重启 你 的 MariaDB/MySQL， 保 证 配置 生效 。 
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前 面 我 们 提 到 ，MariaDB/MySQL 的 复制 功能 是 基于 binlog 的 ， 从 库 接收 主 库 的 binlog 事 件 ， 
然后 在 本 地 进行 重 放 ， 达 到 和 主 库 拥有 相同 数据 的 目的 ， 如 果 主 库 没 有 开启 binlog， 那 么 复制 功 
能 将 不 可 用 。 


在 一 组 复制 结构 中 ， 每 个 服务 器 都 必须 配置 一 个 唯一 的 server_ id， 它 标识 了 一 组 复制 结构 
中 的 一 台 MariaDB/MySQL 服 务 器 。 该 值 必须 是 1 到 22 - 1 之 间 的 一 个 数 。 


如 果 你 没有 给 主 库 配 置 server_id, 将 会 使 用 默认 值 0, 此 时 MariaDB/MySQL 将 拒绝 所 有 从 库 
的 连接 请 求 ， 这 将 导致 复制 功能 不 可 用 。 


为 了 保证 数据 的 安全 性 ， 你 应 该 设置 sync_binlog 参 数 的 值 为 1。 如 果 你 使 用 的 是 InnoDB, E] 
时 建议 将 参数 innodb_flush_log_at_trx_commit 设 置 为 1。 前 者 保证 每 往 binlog 中 写 入 一 个 事务 后 
立即 将 binlog 持 久 化 到 磁盘 ， 后 者 保证 每 往 InnoDB 存 储 引 擎 提交 一 个 事务 ， 立 即将 重 做 日 志 持 
久 化 到 磁盘 。 如 果 你 没有 配置 sync_binlog=1， 写 和 到 binlog 文 件 的 部 分 内 容 可 能 还 存在 于 操作 
系统 的 页 面 缓存 中 , 没有 来 得 及 持久 化 到 磁盘 ， 如 果 这 个 时 候 发 生 了 宕 机 , 将 会 丢失 binlog 的 部 
分 数据 。 


配置 主 服务 器 my.cnf 中 的 log_bin 和 server id 的 代码 如 下 : 


[mysqld] 
log bin = mysql-bin 
server_id = 1 


2. 配置 从 库 
在 从 服务 器 上 ， 你 必须 配置 和 主 库 不 同 的 server_id， 如 果 你 没有 进行 相关 的 配置 ,或 者 当 


前 的 server_ id 和 主 库 的 server id 冲突 ， 需 要 停止 MariaDB/MySQL ， 更 改 配置 ， 然 后 重新 启动 
MariaDB/MySQL, ， 使 参数 生效 。 


如 果 你 设置 了 多 个 从 服务 器 ， 那 么 每 个 从 服务 器 必须 配置 不 同 的 server_id。server id 区 分 
了 一 组 复制 结构 中 的 不 同 服务 咒 。 

如 果 你 的 从 服务 器 没有 配置 server_id 参 数 ， 默 认 值 是 0， 这 样 从 服务 器 会 拒绝 和 主 服 务 器 建 
立 连接 。 复 制 功能 将 不 可 用 。 


在 从 服务 器 上 ， 你 可 以 选择 不 开启 binlog。 但 当 你 想 把 从 服务 右 配 置 成 其 他 服务 器 的 主 服务 
带 时 ， 必 须 开 启 binlog。 当 开启 了 从 库 的 binlog 时 ， 如 有 果 想 把 重 放 的 事件 也 记录 到 binlog 中 ， 可 以 
将 参数 log_slave_updates 配 置 成 1。 


配置 从 服务 器 my.cnf 的 server_id 的 代码 如 下 : 


[mysqld] 
server_id = 2 
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3. 创建 复制 账号 
在 复制 之 前 , 必须 建立 一 个 从 库 到 主 库 的 连接 才能 进行 相应 的 数据 传输 , 所 以 必须 在 主 服务 
器 上 为 该 连接 创建 一 个 账号 ， 允 许 从 库 连 接 到 主 服务 器 上 ， 并 且 赋 予 该 账号 复制 权限 。 


请 尽 可 能 地 使 用 只 有 REPLICATION SLAVE 权 限 的 账号 进行 复制 ,因为 如 果 你 使 用 的 账户 具有 其 
他 权限 , 则 当 你 开启 复制 功能 之 后 , 从 服务 器 会 将 你 所 使 用 的 复制 账号 和 密码 以 文本 的 格式 记录 
到 masterinfo 文 件 中 ， 这 样 会 存在 一 定 的 安全 隐患 。 


在 主 库 上 使 用 CREATE USER 以 及 GRANT 命令 创建 用 于 复制 的 账号 并 且 赋 予 该 账号 相关 的 权限 ， 
相关 代码 如 下 : 


mysql> CREATE USER "slave usr"@"%" IDENTIFIED BY "passwd"; 
mysql> GRANT REPLICATION SLAVE ON *.* TO "slave usr"@"%"; 


如 果 你 想 防 止 别 人 拿 着 该 账号 在 其 他 地 方 复制 ， 那 么 请 限制 该 账号 的 使 用 范围 。 例 如 ,你 只 
想 该 账号 在 卫 为 192.168.1.12 的 机 器 上 使 用 ， 那 么 创建 复制 账号 时 可 以 采用 CREATE USER "slave_ 
user"@"192.168.1.12" IDENTIFIED BY ‘passwd’ ' 命 令 。 


4. 开启 复制 功能 
在 配置 完 主 库 和 从 库 , 并且 创建 了 具有 复制 权限 的 账号 之 后 , 接 下 来 就 可 以 开启 复制 功能 


通过 在 从 库 上 执行 CHANGE MASTER TO 命令 来 指定 或 者 更 改 ( 如 果 之 前 已 经 调用 过 CHANGE MASTER 
T0 命 令 ) 主 库 的 信息 。 


CHANGE MASTER TO 命令 的 基本 语法 如 下 所 示 : 


CHANGE MASTER TO MASTER HOST="host name", 
MASTER_USER = "rpl-user", 
MASTER PASSWORD ="rpl-passwd", 
MASTER PORT = port, 
MASTER_DELAY = interval, 
MASTER_LOG FILE = "master-log-file", 
MASTER_LOG POS = master-log-pos; 


其 中 MASTER_HOST、MASTER_PORT 、MASTER_USER 和 MASTER_PASSWORD 指 定 了 连接 主 库 需 要 的 所 有 信息 。 
MASTER_LOG_FILE 和 MASTER_LOG_P0S 指 定 了 从 库 在 什么 位 置 开始 接收 主 库 的 binlog 事 件 。MASTER_ 
DELAY 指 定 了 从 库 的 数据 应 该 比 主 库 数据 延 时 多 久 。 


执行 CHANGE MASTER TO 命令 并 不 会 连接 到 主 库 ， 仪 仅 是 将 这 些 信息 写 和 人 到 从 库 数 据 目 录 下 的 
master.info 文 件 中 。 如 果 MASTER_LOG_FILE 没 有 指定 ， 则 默认 是 空 ， 因 为 这 个 时 候 没 有 和 主 库 建立 
连接 ， 还 不 知道 主 库 的 binlog 文 件 名 称 ， 只 有 等 到 和 主 库 建立 连接 时 才能 得 知 。 如 果 
MASTER_LOG_P0S 没 有 指定 ， 则 默认 值 是 4， 这 样 就 略 过 了 binlog 的 头 4 个 字 节 (binlog 文 件 涉 ，4 个 
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节 的 常量 )， 从 第 一 个 事件 开始 读 取 。 

接 下 来 就 是 通过 调用 START SLAVE 命 令 来 开启 复制 功能 。 该 命令 开启 了 slave IO 和 slave SQL 两 
个 线程 ,前 者 负责 建立 从 库 到 主 库 的 连接 ,接收 主 库 的 binlog 事 件 ， 然 后 写 人 到 relay-log 中 ， 后 者 
负责 读 取 relay-log 的 内 容 进行 重 放 。 


下 面 我 们 给 出 了 相应 的 操作 示例 : 


mysql> CHANGE MASTER TO MASTER_HOST="127.0.0.1", MASTER _PORT=3306, MASTER_USER="slave", 
MASTER_PASSWORD="slave"; 
Query OK, 0 rows affected, 2 warnings (0.33 sec) 


mysql> START SLAVE; 
Query OK, 0 rows affected (0.05 sec) 


此 时 在 主 库 上 可 以 看 到 负责 发 送 binlog 事 件 的 master dump 线 程 正在 运行 ， 如 下 所 示 : 


mysql> SHOW PROCESSLIST; 


+------- +-------- +-------------------- +-------- +---------------- +------ +----------------- --- 十 
| Id | User | Host | . | Command | Time | state | 
+------- +-------- +-------------------- +-------- +---------------- +------ +----------------- --- 十 
| 1 | root | localhost: 56608 || | Query | 0 | init | 
| 4 | slave | localhost:56642 E | Binlog Dump | 11 | Master has sent... | 
+------- +-------- +-------------------- +-------- +---------------- +------ +--------------- ----+ 


2 rows in set (0.00 sec) 
在 从 库 上 可 以 看 到 slave IO 线程 和 slave SQL 线程 也 在 运行 ， 如 下 所 示 : 


mysql> SHOW PROCESSLIST; 


+------- +---------------- +----------------- +------ +---------- +------ +------------------- 十 
| Id | User | Host | | Command | Time | State | 
+------- +---------------- +----------------- +------ +---------- +------ +------------------- 十 
| 1 | root | localhost:60029 | | Query | 0 | init | 
| 6 | system user | | | Connect | 1 | Waiting for... | 
| 7 | system user | | | Connec | 0 | Slave has read... | 
+------- +---------------- +----------------- +------ +---------- +------ +------------------- 十 


3 rows in set (0.00 sec) 


842 主 库 有 一 定数 据 时 的 复制 配置 


上 面 我 们 介绍 的 是 在 新 安 pe el 由 于 主 库 里 面 没有 任何 数据 , BC 
置 相对 简单 。 如 果 当 主 库 有 一 定 的 数据 时 ， 人 情况 会 稍微 复杂 一 点 ， 基 本 的 步 又 如 下 。 


(1) 配置 主 库 和 从 库 。 
(2) 创建 用 于 复制 的 账号 。 
(3) 创建 主 库 的 快照 ， 获 取 主 库 状 态 。 
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(4) 开启 复制 功能 。 

前 两 步 我 们 已 经 介绍 完了 ， 这 里 主要 介绍 后 面 两 步 。 

1. 创建 主 库 的 快照 

使 用 mysqldump 工 具 能 够 方便 地 创建 主 库 的 快照 ， 基 本 步骤 如 下 。 


(1) 在 主 库 上 执行 FLUSH TABLES WITH READ LOCK， 让 主 库 处 于 只 读 状态 : 


mysql> FLUSH TABLES WITH READ LOCK; 


(2) 在 主 库 上 执行 SHON MASTER STATUS 命令 获取 当前 binlog 的 信息 ， 包 括 当 前 binlog 文 件 的 名 称 
以 及 当前 写 到 binlog 文 件 的 哪个 位 置 。 这 些 信 息 将 作为 从 库 执 行 CHANGE MASTER TO 命令 时 参数 


MASTER_LOG_FILE 和 MASTER_LOG_P0S 的 值 : 


mysql> SHOW MASTER STATUS; 


+--------------------------------------- +------------------ +--------- + 
| File | Position | | 
+--------------------------------------- +------------------ +--------- + 
| mysql-bin.000005 | 1687 | | 
+--------------------------------------- +------------------ +--------- + 


1 row in set (0.00 sec) 


(3) 在 shell 命 令 行 中 执行 nysqldump 命 令 将 指定 的 数据 库 或 者 表 的 数据 导出 来 ( 如 果 你 只 想 


制 主 库 的 某 些 库 或 者 某 些 表 的 数据 ): 
shell> mysqldump [options] database_name | table naname] > dump.file 
(4) 在 主 库 上 执行 UNLOCK TABLES 命 令 ， 解 除 主 库 的 只 读 锁 : 
mysql > UNLOCK TABLES; 
(5) 使 用 dump.file 文 件 在 从 库 上 建立 快照 : 


shell > mysql -u root -p -h192.168.1.12 -P3306 < dump.file 


复 


当 我 们 使 用 mysqldump 命 令 时 ， 如 果 添 加 了 --master-data 参 数 ， 是 不 需要 对 主 库 执行 FLUSH 
TABLES WITH READ LOCK 命 令 来 使 主 库 处 于 只 读 状 态 的 ， 也 不 需要 执行 SHOW MASTER STATUS 来 获取 
主 库 当前 binlog 的 相关 信息 。 因为 如 果 携 带 了 --master-data 参 数 , mysqldump 内 部 会 自动 执行 FLUSH 
TABLES WITH READ LOCK 来 使 库 处 于 只 读 状态 ， 然 后 执行 SHOW MASTER STATUS 来 获取 当前 binlog 的 信 


上 息 ， 并 将 其 记录 到 输出 文件 中 。 当 mysqldump 完 成 快照 之 后 ， 会 自动 释放 获取 的 全 局 读 锁 。 


mysqldump 命 令 主要 用 于 导出 数据 库 的 库 表 结构 和 数据 ， 用 于 对 数据 库 进 行 备份 或 者 复 
下 面 列 出 了 mysqldump --help 的 部 分 输出 结 


ill. 
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jinpengzhang@jinpengzhang:~$ mysqldump --help 

Dumping structure and contents of MySQL databases and tables. 
Usage: mysqldump [OPTIONS] database [tables] 

OR mysqldump [OPTIONS] --databases [OPTIONS] DB1 [DB2 DB3...] 
OR mysqldump [OPTIONS] --all-databases [OPTIONS] 


Default options are read from the following files in the given order: 
/etc/my.cnf /etc/mysql/my.cnf /usr/etc/my.cnf ~/.my.cnf 


The following options may be given as the first argument: 
--print-defaults Print the program argument list and exit. 
--no-defaults Don't read default options from any option file. 
--defaults-file=# Only read default options from the given file #. 
--defaults-extra-file=# Read this file after the global files are read. 
-A, --all-databases Dump all the databases. This will be same as --databases 
with all databases selected. 
-Y, --all-tablespaces 
Dump all the tablespaces. 
-y, --no-tablespaces 
Do not dump any tablespace information. 
--add-drop-database Add a DROP DATABASE before each create. 
--add-drop-table Add a DROP TABLE before each create. 
(Defaults to on; use --skip-add-drop-table to disable.) 
--add-locks Add locks around INSERT statements. 
(Defaults to on; use --skip-add-locks to disable.) 
--allow-keywords Allow creation of column names that are keywords. 
--apply-slave-statements 
Adds ‘STOP SLAVE' prior to ‘CHANGE MASTER' and 'START 
SLAVE’ to bottom of dump. 
--character-sets-dir=name 
Directory for character set files. 
-i, --comments Write additional information. 
(Defaults to on; use --skip-comments to disable.) 
» --complete-insert 
Use complete insert statements. 
-C, --compress Use compression in server/client protocol. 
-a, --create-options 
Include all MySQL specific create options. 
(Defaults to on; use --skip-create-options to disable.) 
-B, --databases Dump several databases. Note the difference in usage; in 
this case no tables are given. All name arguments are 
regarded as database names. ‘USE db_name;' will be 
included in the output. 
--default-character-set=name 
Set the default character set. 
--delete-master-logs 
Delete logs on master after backup. This automatically 
enables --master-data. 
--dump-slave[=#] This causes the binary log position and filename of the 


fy. 
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master to be appended to the dumped data output. Setting 
the value to 1, will print it as a CHANGE MASTER command 
in the dumped data output; if equal to 2, that command 

will be prefixed with a comment symbol. This option will 
turn --lock-all-tables on, unless --single-transaction is 
specified too (in which case a global read lock is only 

taken a short time at the beginning of the dump - don't 

forget to read about --single-transaction below). In all 
cases any action on logs will happen at the exact moment 
of the dump.Option automatically turns --lock-tables off. 


-e, --extended-insert 


-F, --flush-logs 


-?, --help 
--hex-blob 


-h, --host=name 
--ignore-table=name 


Use multiple-row INSERT syntax that include several 
VALUES lists. 

(Defaults to on; use --skip-extended-insert to disable.) 
Flush logs file in server before starting dump. Note that 
if you dump many databases at once (using the option 
--databases= or --all-databases), the logs will be 
flushed for each database dumped. The exception is when 
using --lock-all-tables or --master-data: in this case 
the logs will be flushed only once, corresponding to the 
moment all tables are locked. So if you want your dump 
and the log flush to happen at the same exact moment you 
should use --lock-all-tables or --master-data with 
--flush-logs. 

Display this help message and exit. 

Dump binary strings (BINARY, VARBINARY, BLOB) in 
hexadecimal format. 

Connect to host. 

Do not dump the specified table. To specify more than one 
table to ignore, use the directive multiple times, once 
for each table. Each table must be specified with both 
database and table names, e.g., 
--ignore-table=database. table. 


--include-master-host-port 


Adds 'MASTER_HOST=<host>, MASTER_PORT=<port>' to ‘CHANGE 
MASTER TO..' in dump produced with --dump-slave. 


-x, --lock-all-tables 


-l, --lock-tables 


--master-data[=#] 


Locks all tables across all databases. This is achieved 
by taking a global read lock for the duration of the 
whole dump. Automatically turns --single-transaction and 
--lock-tables off. 

Lock all tables for read. 

(Defaults to on; use --skip-lock-tables to disable.) 
This causes the binary log position and filename to be 
appended to the output. If equal to 1, will print it as a 
CHANGE MASTER command; if equal to 2, that command will 
be prefixed with a comment symbol. This option will turn 
--lock-all-tables on, unless --single-transaction is 
specified too (in which case a global read lock is only 
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--no-autocommit 
-n, --no-create-db 


-d, --no-data 
-N, --no-set-names 
--order-by-primary 


taken a short time at the beginning of the dump; don't 
forget to read about --single-transaction below). In all 
cases, any action on logs will happen at the exact moment 
of the dump. Option automatically turns --lock-tables 
off. 

Wrap tables with autocommit/commit statements. 

Suppress the CREATE DATABASE ... IF EXISTS statement that 
normally is output for each dumped database if 
--all-databases or --databases is given. 

No row information. 

Same as --skip-set-charset. 

Sorts each table's rows by primary key, or first unique 
key, if such a key exists. Useful when dumping a MyISAM 
table to be loaded into an InnoDB table, but will make 
the dump itself take considerably longer. 


-p, --password[=name] 


-P, --port=# 
--protocol=name 


-q, --quick 


-Q, --quote-names 


Password to use when connecting to server. If password is 
not given it's solicited on the tty. 

Port number to use for connection. 

The protocol to use for connection (tcp, socket, pipe, 
memory) . 

Don't buffer query, dump directly to stdout. 

(Defaults to on; use --skip-quick to disable.) 


Quote table and column names with backticks (`). 
(Defaults to on; use --skip-quote-names to disable.) 


-r, --result-file=name 


--single-transaction 


--ssl 


-T, --tab=name 


--tables 


Direct output to a given file. This option should be used 
in systems (e.g., DOS, Windows) that use carriage-return 
linefeed pairs (\r\n) to separate text lines. This option 
ensures that only a single newline is used. 


Creates a consistent snapshot by dumping all tables in a 
single transaction. Works ONLY for tables stored in 
storage engines which support multiversioning (currently 
only InnoDB does); the dump is NOT guaranteed to be 
consistent for other storage engines. While a 
--single-transaction dump is in process, to ensure a 
valid dump file (correct table contents and binary log 
position), no other connection should use the following 
statements: ALTER TABLE, DROP TABLE, RENAME TABLE, 
TRUNCATE TABLE, as consistent snapshot is not isolated 
from them. Option automatically turns off --lock-tables. 
Enable SSL for connection (automatically enabled with 
other flags). 

Create tab-separated textfile for each table to given 
path. (Create .sql and .txt files.) NOTE: This only works 
if mysqldump is run on the same machine as the mysqld 
server. 

Overrides option --databases (-B). 
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-u, --user=name User for login if not current user. 
-v, --verbose Print info about the various stages. 
-V, --version Output version information and exit. 
-X, --xml Dump a database as well formed XML. 


mysqldump 通 常 的 使 用 方式 有 如 下 3 种 : 


mysqldump [options] database [tables] 

mysqldump [options] --database [options] db1 [db2 db3 ...] 

mysqldump [options] -all-databases [options] 

第 一 种 方式 主要 用 于 导出 单个 数据 库 或 者 导出 单个 数据 库 的 某 些 表 ; 第 二 种 方式 主要 用 于 同 
时 导出 多 个 数据 库 ; 而 第 三 种 方式 是 导出 整个 数据 库 的 内 容 。 


如 果 你 不 为 mysqldump 指 定 参数 ， 它 会 自动 从 相关 的 配置 文件 中 读 取 配置 。 自 动 读 取 配 置 文 
件 的 顺序 为 : /etc/my.cnf, /etc/mysql/my.cnf, /usr/etc/my.cnf ~/.my.cnf。 


--master-data 人 参数 用 于 输出 binlog 的 文件 名 和 当前 位 置 。 如 果 该 参数 的 值 为 1 ， 会 将 binlog 文 
件 名 以 及 当前 binlog 的 位 置信 息 作 为 CHANGE MASTER T0 语 句 的 参数 输出 。 如 果 将 该 参数 设置 为 2， 
CHANGE MASTER T0 语 句 会 被 写成 SQL 注释 。- -master-data 人 参数 会 获取 数据 库 的 全 局 读 锁 ， 让 数据 
库 处 于 只 读 状 态 ， 在 mysqldump 执 行 结束 后 会 自动 释放 该 全 局 读 锁 ， 恢复 数据 库 的 写 。 当 同时 携 
带 了 --single-transaction 参 数 的 时 候 ，--master-data 不 会 获取 全 局 读 锁 。 


下 面 我 们 给 出 使 用 --master-data 参 数 的 例子 : 


/*--- example8-1--------------- */ 


shell> mysqldump -h192.168.1.11 -uroot -P3306 --master-data=1 db1 >dump.file1 
shell> less dump.file1 


-- Position to start replication or point-in-time recovery from 


CHANGE MASTER TO MASTER LOG FILE="mysql-bin.000005", MASTER LOG POS=1687; 


/*--- example8-2---------------- */ 


shell> mysqldump -h192.168.1.11 -uroot -P3306 --master-data=2 db2 >dump.file2 
shell> less dump. file2 


-- Position to start replication or point-in-time recovery from 


制 
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-- CHANGE MASTER TO MASTER_LOG FILE="mysql-bin.000005", MASTER LOG POS=1687; 


--single-transaction 人 参数 仅仅 适用 于 支持 MVCC 机 制 的 事务 存储 引擎 的 表 ， 例 如 InnoDB 的 
表 。 当 携带 了 --single-transaction 参 数 时 ，mysqldump 的 执行 流程 如 下 。 


(1) 执行 FLUSH TABLES WITH READ LOCK 语 句 获取 全 局 读 锁 ， 让 数据 库 处 于 只 读 状 态 。 

(2) 设置 当前 会 话 的 事务 隔离 级 别 为 RR， 执 行 START TRANSACTION 语 句 开 启 一 个 新 事务 。 

(3) 如 果 同 时 携带 了 --master-data 参 数 ， 执 行 SHOW MASTER STATUS 语句 获取 当前 binlog 的 名 称 
以 及 位 置信 息 。 

(4) 执行 UNLOCK TABLES 语 句 释放 获取 的 全 局 读 锁 ,这 样 其 他 事务 就 可 以 对 数据 库 进行 写 操作 。 

(5) 在 开启 的 事务 内 部 进行 数据 库 的 导出 操作 。 

(6) 结束 事务 。 


携带 了 --single-transaction 参 数 的 mysqldump 命 令 仅仅 会 占用 全 局 读 锁 很 短 的 时 间 ， 几 乎 不 
会 阻塞 其 他 事务 对 数据 库 的 写 操作 。 同 时 由 于 它 是 在 事务 内 部 进行 数据 库 的 导出 操作 的 , 这 保证 
了 能 够 获取 数据 库 一 个 完整 的 镜像 。 

2. 开启 复制 功能 

现在 从 库 已 经 有 了 数据 , 并 且 也 获得 了 主 库 的 binlog 信 息 , 这 时 我 们 需要 做 的 就 是 执行 CHANGE 
MASTER TO 和 START SLAVE 命 令 来 开启 复制 功能 ， 其 中 MASTER_LOG_FILE 和 MASTER_L0G_P0S 这 两 个 
参数 就 是 上 一 步 中 获取 的 主 库 当 前 binlog 文 件 名 以 及 位 置信 息 ， 而 复制 将 从 这 两 个 参数 指定 的 位 
置 开 始 进行 。 


8.4.3 ”选择 性 复制 


MariaDB/MYSQL 提 供 了 库 和 表 两 种 粒度 的 复制 过 滤 功 能 。 设 置 相应 的 参数 ， 可 以 让 
MariaDB/MySQL 只 复制 指定 的 一 些 库 或 表 ， 或 者 忽略 指定 的 一 些 库 或 表 。 


在 主 库 上 配置 binlog-do-db 参 数 和 binlog-ignore-db 参 数 来 控制 哪些 库 的 更 新 需要 记录 在 
binlog 中 , 这 直接 影响 到 从 库 将 拥有 的 数据 内 容 。 没有 记录 在 binlog 中 的 更 改 是 无 法 复制 到 从 库 上 
A), 通常 情况 下 尽量 不 要 开启 该 选项 , 特别 是 启用 复制 功能 的 时 候 , 不 然 可 能 会 出 现 从 库 上 有 些 
数据 莫名 没有 的 情况 。 

通过 设置 replicate-do-db 参 数 和 replicate-ignore-db 参 数 ， 可 以 指定 需要 对 哪些 库 进行 复 


制 ,或 者 对 哪些 库 不 进行 复制 。 如 果 想 指定 复制 多 个 库 或 者 忽略 多 个 库 , 可 以 配置 多 个 replicate- 
do-db 参 数 和 replicate-ignore-db 参 数 。 


replicate-do-table 参 数 和 replicate-ignore-table 参 数 提供 了 表 级 别 的 选择 性 复制 , 这 两 个 


参数 同样 可 以 设置 多 个 ， 表 示 对 多 个 表 进行 选择 性 复制 或 选择 性 忽略 。 


参数 replicate-rewrite-db=fzrom name->to_name 告 诉 从 库 在 重 放 过 程 中 ， 如 果 该 事件 在 主 库 
上 执行 时 默认 的 数据 库 是 from name， 将 从 库 的 当前 默认 库 改 成 to_name。 这 个 转换 动作 发 生 在 匹 
配 过 滤 条 件 之 前 。replicate-rewrite-db 参 数 只 会 对 操作 表 级 别 的 语句 生效 ， 不 会 对 create 
database, drop database, alter database 等 操作 数据 库 的 语句 起 作用 。 该 参数 也 可 以 设置 多 个 ， 
表示 多 个 转换 关系 。 

replicate-wild-do-table 参 数 和 replicate-wild-ignore-table 参 数 允 许 你 对 特定 模式 的 表 进 
行 选择 性 复制 或 者 选择 性 忽略 。 例 如 : 设置 replicate-wild-do-table=bj%.foo%， 那 么 bjl.fool、 
bj.foo 、bjx.fooy 等 之 类 的 表 都 会 匹配 上 。 参 数 replicate-wild-do-table 和 参数 replicate- 
wild-ignore-table 同 样 可 以 设置 多 个 。 


图 8-2 很 好 地 描述 了 复制 过 滤 右 的 工作 原理 。 


| 
| oe IO 线程 


| binlog_do_db 

| binlog_ignore_db replicate_do_db 

| replicate_ignore_db 

H replicate_do_table 
replicate_ignore_table 
replicate_rewrite_db 


replicate_wild_do_table | 
replicate_wild_ignore_table} 


图 8-2 ”复制 过 滤器 


通常 情况 下 ,如 果 从 库 开 启 了 binlog,， 从 库 重 放 的 内 容 是 不 会 记录 到 binlog 中 去 的 。 如 果 从 库 
本 身 存 在 其 他 从 库 ， 比 如 A->B->C 这 种 情况 ，B 是 A 的 从 库 ， 同 时 B 又 是 C 的 主 库 ， 那 么 可 以 通过 
将 B 的 log-slave-updates 人 参数 置 为 1 将 B 库 slave SQL 线程 重 放 的 内 容 也 记录 到 B 的 binlog 中 去 ， 这 
样 C 就 能 体现 A 的 内 容 更 新 情况 。 


8.5 复制 的 实现 

在 本 节 中 ， 我 们 将 从 源 代码 实现 的 角度 来 讲解 MariaDB/MySQL 的 复制 功能 ， 其 中 列 出 了 一 
些 重要 的 数据 结构 和 函数 的 实现 。 为 了 方便 阅读 ， 部 分 函数 的 参数 可 能 会 省 略 ,但 这 不 影响 对 整 
个 复制 机 制 的 理解 。 
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作为 MySQL 的 一 个 分 支 , MariaDB 在 很 多 方面 都 保留 了 MySQL 原 有 的 实现 。MariaDB 的 复制 
功能 也 沿用 了 MySQL 的 实现 ， 在 此 基础 上 进行 了 一 些 扩展 ,例如 支持 多 源 复制 。 所 以 我 们 首先 
从 MySQL 的 复制 实现 来 进行 分 析 ， 当 遇 到 MariaDB 的 不 同 之 处 时 会 特别 说 明 。 


8.5.1 复制 相关 的 数据 结构 
首先 我 们 给 出 与 复制 相关 的 几 个 核心 数据 结构 的 定义 ,并 且 详 细 介绍 其 中 每 个 成 员 的 具体 


含义 。 

类 Rpl_info 定 义 了 复制 相关 的 一 些 通 用 信息 ,例如 slave 线 程 的 上 下 文 信息 以 及 运行 状况 ,等 
等 。 类 Master_info 和 类 Relay_log_info 都 继承 自 Rpl_info 类 ， 前 者 主要 记录 连接 到 主 库 所 需要 的 
言 息 以 及 从 库 接收 binlog 的 进度 等 信息 ,后 者 用 于 保存 从 库 重 放 binlog 的 进度 以 及 其 他 一 些 相关 的 
信息 。 


1. Rpl_info 
类 Rpl_info 定 义 了 复制 相关 的 一 些 通 用 信息 。 


类 Rpl_info 存 在 于 MySQL 5.6 中 ， 而 在 MariaDB 10.0 中 看 不 到 这 个 类 ， 因 为 该 类 的 成 员 被 移 
到 了 Master_info 和 Relay log info 中 ， 但 成 员 的 含义 保持 不 变 。 


下 面 给 出 了 MySQL 5.6 中 类 Rpl_info 的 定义 : 
// sql/rpl_info.h 


class Rpl_info 


{ 

public: 
THD *info_ thd; // 线程 的 上 下 文 环境 
bool inited; // 初始 化 标志 
volatile bool abort_slave; // 是 否 停止 slave 线 程 


volatile uint slave_running; // slave 线 程 是 否 在 运行 


protected: 
Rpl_info handler *handler; 
3 
下 面 我 们 给 出 Rpl_info 各 个 成 员 的 具体 含义 。 


O info thd: 在 前 面 的 章节 中 已 经 介绍 过 ， 在 MariaDB/MySQL 中 ， 每 个 线程 都 会 对 应 一 个 
THD 类 型 的 实例 , 用 于 存储 线程 相关 的 上 下 文 信息 。info_thd 变 量 代 表 了 slave IO/slave SQL 
线程 的 执行 上 下 文 。 

O inited: 是 否 进行 了 初始 化 。 


口 abort_slave: 如 果 为 1， 表 示 需 要 停止 slave 线 程 。 


O slave running: 该 成 员 用 来 标识 slave 线 程 是 否 在 运行 。 例 如 当 Master_info 中 该 成 员 的 值 


为 1 时 , 表示 slave IO 线程 正在 运行 , 当 Relay_log_info 中 该 成 员 的 值 为 1 时 , 表示 slave SQL 
线程 正在 和 运行。 在 C/C++ 中 ， 关 键 字 volatile 提 醒 编 译 器 它 修 饰 的 变量 随时 可 能 改变 ， 


此 编译 后 的 程序 每 次 需要 读 取 或 者 存储 该 变 


量 时 ， 都 会 去 内 存 中 读 取 它 的 值 ， 而 不 是 从 


寄存 器 中 读 取 ， 以 防止 一 个 线程 对 该 变量 进行 写 操作 而 另 一 个 线程 对 该 线程 进行 读 取 操 


作 时 ， 两 个 线程 的 数据 不 一 致 。 


O handler: 该 成 员 主 要 用 于 对 Master_ info 实例 的 内 容 和 masterinfo 文 件 或 mysql.slave_ 
master info 表 的 内 容 进 行 同步 以 及 对 Relay_ log info 实例 的 内 容 和 relay log.info 文 件 或 
mysql.slave_relay_log_info 表 的 内 容 进 行 同步 。 当 mysqld 启 动 时 ， 从 文件 或 表 中 读 取 内 
容 到 Master info/Relay log info 实 例 中 , 当 Master_info/Relay_log_info 实 例 的 内 容 有 更 
新 时 ， 写 入 到 对 应 的 文件 或 表 中 进行 持久 化 。 


2. Master info 


下 面 我 们 给 出 类 Master_info 的 定义 。 该 类 主要 记录 了 连接 到 主 库 所 需要 的 信息 以 及 接收 


binlog 的 进度 等 信息 , 它 在 MySQL 中 只 有 一 个 实例 , 那 就 是 全 局 变量 active_mi, 该 变量 在 mysqld 
启动 阶段 由 init_slave 也 数 进行 初始 化 。 由 于 MariaDB 支 持 多 源 复制 ， A 


E, 所 以 在 MariaDB 上 可 能 存在 多 个 Master_info 类 
在 8.8 节 中 会 进一步 分 析 。 


下 面 给 出 类 Master_info 的 定义 : 
// sql/rpl mi.h 


class Master_info : public Rpl_ info 


{ 

public: 
char host[HOSTNAME_LENGTH + 1]; // 
uint port; // 
char bind addr[HOSTNAME LENGTH+1]; 

private: 
bool start user configured; // 
char user[USERNAME LENGTH + 1]; // 
char password[MAX_PASSWORD_LENGTH + 1]; // 
char start_user[USERNAME_LENGTH + 1]; // 


char start_password[MAX PASSWORD LENGTH + 1]; 
char start_plugin_auth[FN_REFLEN + 1]; // 
char start_plugin_dir[FN_REFLEN + 1]; 


uint connect_retry; // 


MYSOL *mysql; // 


的 实例 , 通过 Master_info index 类 来 管理 ,这 


主 库 主 机 名 或 耳 地 址 
主 库 的 端口 号 


如 果 使 用 start slave 指 定 用 户 名 和 密码 ， 则 该 变量 为 true | 


master.info 文 件 中 的 用 户 名 
master.info 文 件 中 的 密码 
执行 start slave 命 令 时 指定 定 的 用 户 名 
// 执行 start slave 命 令 时 指定 的 密码 
传输 密码 使 用 的 插件 


重 连 的 最 多 次 数 


和 主 库 之 间 的 连接 


= 
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long clock_diff_with_master; // 与 主 库 之 间 的 时 间 差 异 
float heartbeat_period; // 与 主 库 心 跳 的 间隔 时 间 
time_t last_heartbeat; // 最 近 一 次 心跳 时 间 
Relay_log_info *rli; // 指向 Relay_log info 结 构 
ulong master id; // 主 库 的 server id 

char master uuid[UUID LENGTH+1]; // 主 库 的 uuid 

ulong master_gtid_mode; // 主 库 是 否 支持 GTID 


Format_description_log event *mi_description_event; 


bool auto position; // 如 果 为 tfue 并 且 支 持 GTID 复 制 ， 则 在 执行 CHANGE MASTER 
// T0 命 令 时 不 需要 指定 bin1og 的 位 置 


protected: 
// 以 下 两 个 变量 指定 从 库 的 复制 进度 
char master log name[FN_ REFLEN]; 
my_off t master log pos; 


rT 
下 面 我 们 给 出 Master_info 各 个 成 员 的 具体 含义 。 


O host: 主 库 的 地 址 ， 通 过 CHANGE MASTER TO 语句 指定 。 

口 port: 主 库 的 端口 号 ， 通 过 CHANGE MASTER TO 语句 指 定 

Q bind addr: bind addz 的 作用 是 当 从 库 所 在 的 机 器 有 多 个 网 络 接口 时 ， 选 择 指定 的 接口 与 

主 库 进 行 通 信 。 

O user: 连接 到 主 库 进 行 复制 的 账号 ， 通 过 CHANGE MASTER T0 语 句 指定 。 

O password: 连接 到 主 库 所 需 的 密码 ， 通 过 CHANGE MASTER TO 语句 指定 。 

口 start_user: 执行 START SLAVE 命 令 时 指定 的 账号 。 

D start_password: 执行 START SLAVE 命 令 时 指定 的 密码 。 

O master id: 主 库 的 server_id， 在 slave IO 线程 和 主 库 建 立 连 接 之 后 向 主 库 询 问 获得 。 

O master_uuid: 主 库 的 uuid， 在 slave IO 线程 和 主 库 建 立 连接 之 后 向 主 库 询 问 获得 。 

T mysql: 从 库 调 用 START SLAVE 命 令 开 局 复制 时 ， 会 建立 一 个 到 主 库 的 连接 ，mysq1 成 员 就 

是 该 连接 。 之 后 所 有 与 主 库 的 通信 都 是 通过 该 连接 进行 的 。 

口 clock_diff_with_master: 在 slave IO 线 程 启动 之 后 会 获取 主 库 的 系统 时 间 和 时 区 等 信息 ， 
clock_diff_with_master 变 量 存 储 的 是 从 库 与 主 库 之 间 的 时 间 差 。 在 执行 CHANGE MASTER TO 
命令 时 如 果 设 置 了 sql_delay 参 数 ， 从 库 在 对 事件 进行 重 放 时 ， 就 能 根据 事件 在 主 库 上 的 
执行 时 间 以 及 clock_diff_with_master 来 决定 该 事件 应 该 何 时 进行 重 放 。 

口 heartbeat_period: heartbeat_period 表 示 发 送 心跳 包 的 间隔 。 当 主 库 很 长 时 间 没 有 数据 

更 新 时 ， 主 库 和 从 库 之 间 通 过 发 送 心跳 包 来 保持 两 者 之 间 的 连接 。 
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口 master_gtid_mode: 表示 在 建立 从 库 到 主 库 的 连接 之 后 ,询问 主 库 是 否 开启 了 GTID 模 式 。 
D auto position: 如 果 该 成 员 为 true 并 且 支 持 GTID 复 制 ， 则 执行 CHANGE MASTER TO 命令 时 
不 需要 指定 binlog 的 位 置 。GTID 相 关 的 内 容 将 会 在 8.9 节 中 详细 介绍 。 

口 last_heartbeat: last_heart_ beat 表 示 最 近 一 次 收 到 心跳 包 的 时 间 。 

口 master log name[FN REFLEN] #llmy_off_tmaster_log pos: master_log name#llmaster_log_ 
pos 成 员 记录 了 slave IO 线 程 接 收 binlog 事 件 的 进度 。 


3. Relay log info 


Relay_log_info 主 要 用 于 记录 slave SQL 线 程 重 放 binlog 的 进度 信息 以 及 其 他 相关 的 信息 。 下 
面 给 出 了 Relay_log_info 类 的 定义 : 


// sql/rpl rli.h 


class Relay log info : public Rpl_info 
{ 
public: 
bool replicate_same_server_id; // replicate-same-server-idit *q 


MYSOL_BIN_LOG relay log; // relay-log 
File cur_log fd; // 当前 读 取 的 relay-log 文 件 的 描述 符 
IO0_CACHE cache _buf,*cur_log; // 读 写 文 件 的 缓存 


bool is_relay_log_recovery; // MYSQL 启 动 时 是 否 进行 relay-log 修 复工 作 
Master_info *mi; // 指向 Master info 对 象 


protected: 
// 一 个 事务 包含 多 个 binlog 事 件 ， 这 些 事件 称 为 一 个 组 
char group relay log name[FN REFLEN]; 
ulonglong group relay log pos; 
char event relay log name[FN REFLEN]; 
ulonglong event relay log pos; 
ulonglong future event relay log pos; 


char group master log name[FN REFLEN]; 
volatile my off t group master log pos; 


ulonglong future group master log pos; 


private: 
// relay-log 中 包含 的 GTID 集 合 
Gtid set gtid set; 


public: 
// relay-log 所 占 磁盘 空间 相关 信息 
ulonglong log space_limit,log space total; 


Je 
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bool ignore_log space_limit; 


// 用 于 relay-log 清 理 时 slave SQL 线程 和 slave IO 线程 通信 
mysql_mutex_t log space_lock; 
mysql_cond_t log space_cond; 


// slave SQL 线程 要 求 slave IO 线程 进行 relay-log 切 换 
bool sql force rotate relay; 


// 当前 事务 重 试 了 多 少 次 

ulong trans_retries; 

// 从 slave SQL 线程 开启 到 现在 重 试 了 多 少 次 
ulong retried_trans; 


private: 
// 事件 的 延迟 重 放 ， 对 应 于 执行 CHANGE MASTER TO 命令 时 的 master_delay 参 数 
int sql_delay; 
time_t sql_delay_end; 


, Mie 
下 面 我 们 给 出 Relay_log_info 各 个 成 员 的 含义 。 


口 replicate_same_server_id: 该 成 员 保存 的 是 replicate-same-server-id 选 项 的 值 ， 如 果 该 选 

项 的 值 为 1， 从 库 将 不 会 过 滤 与 自己 拥有 相同 server_id 的 事件 。 

O cur_log fd: 当前 打开 的 relay-log 文 件 的 描述 符 。 

口 relay_log: 用 于 操作 relay-log。telay-log 的 格式 和 结构 与 binlog 完 全 一 致 ， 所 以 使 用 了 类 

MYSQL_BIN_L0G 对 relay-log 进 行 操作 。 

口 cache_buf 和 cur_log: 在 之 前 的 章节 中 我 们 已 经 介绍 过 ， 在 MariaDB/MySQL 中 ， 所 有 的 
文件 读 写 都 是 通过 IO_CACHE 进 行 缓存 的 。 成 员 cache_buf 和 cur_log 是 relay-log 文 件 的 缓存 。 
在 relay-log 中 ， 正 在 被 slave IO 线程 写 的 relay-log 文 件 称 为 活跃 的 relay-log 文 件 ， 其 他 的 
relay-log 文 件 叫 非 活跃 的 relay-log 文 件 。 当 重 放 的 是 非 活跃 的 relay-log 文 件 时 ，cache_buf 
对 应 于 打开 的 非 活跃 的 relay-log 文 件 , cur_log 指 向 cache_buf; 当 重 放 的 是 活跃 的 relay-log 
文件 时 ，cache_buf 为 空 ，cur_1og 对 应 于 slave IO 线程 打开 的 活跃 的 relay-log 文 件 。 

O is relay log recovery: 该 成 员 对 应 于 relay-log-recovery 选 项 。 如 果 指 定 了 该 选项 ， 

MariaDB/MySQL 在 进行 初始 化 时 会 对 relay-log 进 行 相 应 的 裁剪 ， 将 之 前 获取 了 但 是 没有 

重 放 的 事件 从 relay-log 中 丢弃 掉 ， 这 部 分 事件 将 从 主 库 重 新 获取 。 当 从 库 发 生 宕 机 ， 导 致 

relay-log 损 坏 ， 一 部 分 的 relay-log 没 有 处 理 时 ， 如 果 使 用 relay-log-recovery 选 项 ， 会 自动 放 

弃 所 有 未 执行 的 relay-log, 并 且 重 新 从 主 库 上 获取 binlog 事 件 , 这 样 能 够 保证 relay-log 的 完 


整 性 。 
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Q group relay log name: 一 个 事务 通常 包含 多 个 binlog 事 件 ， 这 些 事 件 称 为 一 个 组 。 

group_relay_1og_name 表 示 当 前 重 放 的 事务 所 在 的 relay-log 文 件 的 名 称 。 

Q group relay log pos: 当前 重 放 的 事务 在 relay-log 文 件 中 的 起 始 位 置 。 

O event_relay_log name: 当前 重 放 的 事件 所 在 的 relay-log 文 件 的 名 称 。 

O event_relay log pos: 当前 重 放 的 事件 在 relay-log 文 件 中 的 位 置 。 

O future_event_relay log pos: 下 一 个 事件 在 relay-log 文 件 中 的 位 置 。 

Q group_master_log name: 当前 重 放 的 事务 在 主 库 上 对 应 的 binlog 文 件 的 名 称 。 

口 group_master_log_pos: 当前 重 放 的 事务 在 主 库 上 binlog 文 件 中 的 位 置 。 

O gtid set: gtid_set 是 从 库 relay-log 中 所 包含 的 GTID 集 合 。GTID 相 关 的 内 容 在 8.9 节 中 详 

细 介 绍 

Q sql_force rotate relay: “4slave SQL 线程 想 删 除 一 些 relay-log 文 件 来 腾 出 磁盘 空间 时 ， 
可 能 会 要 求 slave IO 线程 执行 relay-log 的 切换 。 如 果 sql_force_Totate_Telay 为 1, 表明 slave 
SQL 线程 要 求 slave IO 线程 进行 relay-log 的 切换 。 

O log space limit: relay-log 占 用 磁盘 空间 大 小 的 上 限 。 

O log space total: relay-log 占 用 的 磁盘 空间 的 大 小 。 

O sql_delay: 指 用 户 在 调用 CHANGE MASTER T0 命 令 时 指定 的 从 库 的 延迟 执行 时 间 , 单位 为 秒 。 

O sql_delay end: 指 当前 被 延迟 的 事件 应 该 何 时 重 放 。 

Omi: mi 指向 Master_info 的 实例 。 


除了 上 面 列 出 的 一 些 成 员外 ，Relay_log_info 还 包含 了 许多 其 他 成 员 ， 例 如 用 于 实现 并 发 复 
制 的 相关 成 员 、 用 于 实现 条 件 停止 复制 (until condition replication ) 的 一 些 成 员 ， 等 等 。 
8.5.2 复制 的 初始 化 


在 mysqld 启 动 的 时 候 , 会 调用 init_slave 函 数 对 复制 功能 进行 初始 化 。 下面 列 出 了 init_slave 
函数 的 主要 代码 : 


init_slavery žk 


1. // sql/rpl_slave.cc 


2. #define GOTO_ERR { error = 1; goto err; } 
3. int init_slave() { 
4. int error = 0; 


5. int thread_mask = SLAVE_SQL | SLAVE I0; 
6. enum_return_check check_return = ERROR_CHECKING REPOSITORY; 
7. Relay_log info *rli = NULL; 
// 创建 Master info 对 象 
active mi = Rpl info factory::create_mi(opt_mi_repository id); 
9. if (!active_mi) GOTO_ERR; 


// 创建 Relay_1og_info 对 象 
10. rli = Rpl info factory::create rli(opt rli repository id); 


= 
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11. if (!rli) GOTO ERR; 


// 将 Master_info 对 象 和 Relay log info 对 象 进行 关联 
12. active_mi->set_relay_log info(rli); 
13. rli->set_master_info(active_mi); 


// 初始 化 Master_info 对 象 
14. check_return = active_mi->check_info(); 
15. if (check_return != REPOSITORY DOES NOT EXIST && (thread_mask & SLAVE_I0) 8& 
init_info()) 
16. GOTO_ERR; 


// 初始 化 Relay_log info 对 象 
17. check_return = active_mi->rli->check_info(); 


active_mi->mi_ 


18. if (check_return == REPOSITORY DOES NOT EXIST && (thread_mask & SLAVE_SOL) && active_mi- 


>rli->rli_init_info()) 
19. GOTO_ERR; 


// 启动 slave 线 程 
20. if (active_mi->host[0] && !opt_skip_slave start) { 


21. if (start_slave_threads(true/*need_lock_slave=true*/, 

22. false/*wait_for_start=false*/, active_mi, thread_mask)) 
23. GOTO_ERR; 

24. } 

25.err: 

26. if (err) sql_print_information(“init slave failed!”); 

27. return err; 

28.} 


PERAK, BEANE OTE ah Hh A UR a Wr init_slave ek BUT AY TAE 


第 8 行 代码 调用 Rpl_info_factory: :cteate_mi 函 数 创 建 全 局 变量 Master_info *active mi。 根 
据 配置 的 master-info-repository 是 FILE 还 是 TABLE, 将 active_mi 的 handler 成 员 初始 化 为 合适 的 实 
例 。 此 外 ，cxreate_mi 函 数 还 做 了 一 件 事情 : 如 果 master info 存 在 ( 指 的 是 master.info 文 件 存在 或 


者 表 mysql.slave_master_info 中 存在 数据 )， 也 就 是 说 之 前 配置 过 复制 ， 并 ] 
info-repository 配 置 的 值 和 上 次 不 一 样 ， 比 如 上 一 次 配置 的 是 TABLE， 这 一 次 配置 


日 本 次 master- 
的 是 FILE， 该 


孔 数 会 将 mysql.slave_master_info 表 中 的 内 容 复 制 到 master.info 文 件 中 ， 然 后 将 mysql.slave_ 


master_info 表 中 的 内 容 清 空 。 


第 10 行 代码 调用 Rpl_info_factory: :create_T1i 函 数 创建 一 个 Relay log _info 实 例 。 


第 12 行 和 第 13 行 代码 将 类 Master_info 的 实例 active_mi 和 类 Relay_log_info 的 实例 rli 关 联 起 


来 。 此 后 访问 复制 相关 的 信息 ， 只 需要 通过 全 局 变量 active_mi 就 可 以 了 。 
第 14 行 和 第 15 行 代码 说 明 ， 如 果 masterinfo 文 件 或 mysqlLmaster info 表 中 有 内 
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active_mi->mi init_info 初 始 化 Master_info 的 成 员 , 这 些 成 员 包 括 host、port master_log_name, 
master log_pos 等 。 


第 17 行 和 第 18 行 代码 说 明 ， 如 果 relay-log.info 文 件 或 mysql.relay_log_info 表 中 有 内 容 , 调用 
函数 active_mi->rli->rli init_info 初 始 化 Relay_log_info 的 相关 成 员 。 然 后 新 建 一 个 relay-log 
文件 来 记录 将 要 从 主 库 接收 的 binlog 事 件 ， 也 就 是 说 每 次 启动 mysqld 时 relay-log 会 发 生 一 次 切换 。 

第 20 行 和 第 21 行 代码 说 明 , 如 果 之 前 配置 过 复制 ,并 且 启 动 的 时 候 没 有 指定 skip_slave_start 
选项 ， 则 启动 slave IO 线程 和 slave SQL 线程 开始 复制 工作 。 


至 此 ，init_slave 函 数 的 主要 工作 就 完成 了 ， 此 时 的 复制 工作 就 交 给 了 slave IO 和 slave SQL 
两 个 线程 ， 后 续 我 们 会 对 它们 进行 详细 的 分 析 。 


在 后 面 实现 细节 的 介绍 过 程 中 ， 我 们 假设 master-info-repository 和 slave-relay-info-repository 参 
数 设置 的 都 是 FILE， 也 就 是 说 采用 master.info 文 件 和 relay_log.info 文 件 来 存储 复制 的 相关 信息 。 
如 果 参 数 master-info-repository 和 slave-relay-info-repository 设 置 为 TABLE， 则 处 理 流 程 基本 一 致 。 


8.5.3 CHANGE MASTER TOMS 准备 工作 


在 开启 从 库 的 复制 之 前 ， 需 要 调用 CHANGE MASTER T0 命 令 来 指定 主 库 的 位 置 以 及 连接 到 主 库 
的 账号 、 密 码 等 信息 。 本 节 中 ， 我 们 将 详细 讲解 CHANGE MASTER TO 命令 是 如 何 工 作 的 ， 具 体 做 了 
哪些 事情 。 下 面 给 出 了 CHANGE MASTER TO 命令 的 执行 流程 。 


(1) 检查 slave IO 线 程 和 slave SQL 线程 是 否 在 运行 ， 如 果 任 意 一 个 在 运行 ,输出 错误 信息 并 结 
束 命 令 的 执行 ， 和 否则 继续 往 下 执行 。 
(2) 检查 MASTER-HOST 参 数 输入 的 是 否 为 空 ， 如 果 为 空 ， 输 出 错误 信息 并 结束 执行 ， 否 则 继续 
往 下 执行 。 
(3) 检查 master.info 文 件 是 否 存 在 。 
(a) 如 果 不 存在 就 创建 该 文件 ， 将 Master info 的 实例 active_mi 初 始 化 为 默认 值 ， 并 将 
active_mi 的 信息 同步 到 masterinfo 文 件 中 。 
(b) 如 果 masterinfo 文 件 存在 ， 读 取 masterinfo 文 件 的 信息 到 Master_info 实 例 active_mi 中 。 


(4) 检查 relay log.info 文 件 是 否 存在 。 


(a) 如 果 不 存在 ， 创 建 relay log.info 文 件 ， 同 时 创建 relay-log 相 关 的 文件 relay- log.index 和 
relay-log.000001。 将 Relay_log_info 的 实例 active_mi->r1i 初 始 化 为 默认 值 , 同时 将 实 
例 active_mi->rli 的 信息 同步 到 relay_log.info 文 件 中 。 

(b) 如 果 relay log.info 文 件 存 在 ， 从 中 读 取 信息 到 实例 active_mi->rli。 


(5) 如 果 参 数 MASTER_H0ST 或 MASTER_PORT 和 原来 的 不 一 样 ， 也 就 是 说 如 果 主 库 变 成 另 一 个 


制 


Rat 
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MariaDB/MySQL 实例 ， 重 置 active mi 的 master uuid 成 员 和 master id 成 员 。 将 参数 中 的 
MASTER_LOG_NAME 、MASTER_LOG_P0S 、MASTER_USER 以 及 MASTER_PASSWORD 等 设置 到 实例 active_ mi 中 。 
(6) 如 果 指 定 了 参数 RELAY LOG_FILE 和 RELAY L0G _P0S 等 信息 ， 则 定位 到 RELAY_LOG FILE 和 
RELAY_LOG_P0S 指 定 的 位 置 。 
(T) 将 active mi 的 内 容 同步 到 masterinfo 文 件 中 ， 将 active_mi->r1i 的 内 容 同步 到 relay log.info 
文件 中 。 


通过 上 面 的 介绍 ， 我 们 发 现 CHANGE MASTER TO 命令 仅仅 是 做 了 一 些 准 备 工作 ， 此 时 复制 工作 
还 没有 正式 开始 ，slave IO 线程 以 及 slave SQL 线 程 也 没有 开启 。 要 开启 复制 工作 ， 必 须 执行 START 


SLAVE 命 令 。 


8.5.4 START SLAVE 命 令 一 一 开启 复制 


该 命令 主要 用 于 开启 slave IO 线程 以 及 slave SQL 线 程 ， 进 行 真 正 的 复制 工作 。 此 外 ， 该 命令 
还 可 以 指定 终止 条 件 , 用 来 指定 复制 的 结束 条 件 。 该 命令 可 以 选择 性 地 开启 slave IO 线程 或 者 slave 
SQL 线程 ， 或 者 两 个 线程 全 部 开启 ， 例 如 命令 START SLAVE I0_THREAD 仅 仅 开启 slave IO 线程 ， 并 
不 启动 slave SQL 线程 ; START SLAVE SQL_THREAD 仅 仅 开启 slave SQL 线程 ， 并 不 开启 slave IO 线程 ; 
而 START SLAVE 同 时 开启 两 个 线程 。 


下 面 介 绍 START SLAVE 命 令 的 执行 流程 。 


(1) 查看 slave IO 线程 和 slave SQL 线程 是 否 已 经 在 运行 了 ， 如 果 都 在 运行 ,输出 警告 信息 并 结 
束 执 行 。 

(2) 查看 Master_info 的 实例 active_mi 的 信息 是 否 完整 。 

(3) 如 果 携 带 了 USER 和 PASSWORD 参 数 ， 将 其 记录 到 active_mi 中 。 

(4) 如 果 携 带 了 终止 条 件 ， 将 其 记录 到 active_mi->rli 中 。 

(5) 启动 还 没有 启动 的 slave 线 程 。 


8.5.5 STOP SLAVE 命 令 停止 复制 


该 命令 用 于 停止 从 库 的 复制 工作 。 如 果 想 在 从 库 上 执行 备份 或 数据 分 析 工 作 , 可 以 执行 该 命 
令 来 暂时 停止 从 库 的 更 新 。 


执行 STOP SLAVE 命 令 ， 可 以 停止 指定 的 slave 线 程 ， 例 如 命令 STOP SLAVE I0_THREAD 仅 仅 停止 
slave IO 线程 ， 并 不 会 停止 slave SQL 线 程 ，STOP SLAVE SQL THREAD 仅仅 停止 slave SQL 线 程 ;，STOP 
SLAVE 将 会 停止 两 个 线程 。 


该 命令 相对 比较 简单 ， 主 要 执行 流程 如 下 。 
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(1) 检查 是 否 有 slave 线 程 在 运行 ， 如 果 没 有 ， 输 出 警告 结束 ， 否 则 继续 执行 。 
(2) 如 果 slave SQL 线程 在 运行 ， 发 送信 号 给 该 线程 ， 通 知 它 结束 执行 。 
(3) 如 果 slave IO 线程 在 运行 ， 发 送信 号 给 该 线程 ， 通 知 它 结束 执行 。 


8.5.6 slave IO 线程 


在 执行 START SLAVE 命 令 开启 复制 功能 时 ， 该 命令 会 通过 调用 start_slave_threads 函 数 来 启 
动 slave IO 线程 和 slave SQL 线程 。 本 节 中 ， 我 们 将 分 析 slave IO 线程 的 具体 工作 流程 ,来 进一步 加 
深 对 slave IO 线程 的 理解 。 


slave IO 线程 的 和 人口 函数 是 void *handle slave io(void *arg)。 下 面 我 们 给 出 该 函数 的 主要 
代码 ， 其 中 仅仅 列 出 了 关键 的 函数 调用 ， 忽 略 了 一 些 细节 ， 但 并 不 影响 整个 理解 过 程 。 
handle_slave_io(void *arg) 的 参数 arg 传 人 的 是 类 Master_info 的 实例 active_mi: 


// sql/rpl slave.cc 


1. void *handle slave io(void *arg) { 

2 THD *thd= NULL; 

3 MYSOL *mysql; 

4. Master info *mi = (Master info*)arg; 
5 Relay log info *rli= mi->rli; 

6 int ret; 


// 初始 化 工作 


7. thd = new THD; 

8. init_slave _ thread(thd，SLAVE_THD_I0); 
9. mi->slave_running = 1; 

10. mi->abort_slave = 0; 


- 


// 连接 到 主 库 
11. mi->mysql = mysql = mysql_init(NULL); 
12. safe_connect(thd, mysql, mi); 


// 获取 主 库 信 息 ， 并 且 将 从 库 的 信息 在 主 库 上 注册 


13. ret = get_master_version_and_clock(mysql, mi); 

14. if (!ret) ret = get_master_uuid(mysql, mi); 

15. if (!ret) ret = io thread_init_commands(mysql, mi); 
16. if (ret) goto err; 

17. register_slave_on_master(mysql, mi); 


// 读 取 binlog 事 件 ， 并 且 将 其 写 入 到 relay-log 中 
18. while (!io slave killed(thd,mi)) { 
19. request_dump(thd, mysql, mi); 


Je 
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20. const char *evnet_buf; 

21. while (!io slave killed(thd,mi)) { 

22. ulong event_len = read_event(mysql, mi); 

23. if (event_len == packet_error) goto err; 

24. event_buf = (const char*)mysql->net.read_pos + 1; 
25. queue_event(mi, event_buf, event_len); 

26. flush_master_info(mi, FALSE); 

27. if (rli->log space limit 8& rli->log space limit < rli->log space total) 
28. wait for relay log space(rli); 

29. } 

30. } 

31.} 


第 7 行 到 第 10 行 代码 用 于 进行 一 些 初始 化 工作 ， 包 括 为 当前 线程 创建 一 个 THD 的 实例 ， 用 于 
保存 当前 线程 的 上 下 文 信息 ， 并 且 将 mi->slave_running 设 置 为 1!1， 表 示 slave IO 线程 正在 运行 。 


第 11 行 和 第 12 行 代码 在 初始 化 完成 之 后 ， 接 着 调用 safe_connect 函 数 建立 到 主 库 的 连接 。 拯 
数 返 回 成 功 后 ,参数 mysql 就 代表 和 主 库 的 连接 ,后 面 所 有 和 主 库 的 通信 都 是 通过 该 连接 进行 的 。 


第 13 行 代码 调用 get_master_version_and_clock 函 数 获取 主 库 的 版 本 号 、 主 库 的 系统 时 间 以 
及 时 区 等 信息 ， 同 时 获取 主 库 的 server_id。 获 取 了 主 库 的 系统 时 间 和 时 区 信息 后 ， 就 可 以 计算 
出 主 库 和 从 库 的 时 间 偏 差 ， 这 对 延迟 复制 是 非常 有 用 的 。 

第 14 行 代码 调用 get_master_uuid 函 数 获取 主 库 的 uuid 信 息 ， 并 将 其 记录 下 来 。 

第 15 行 代码 调用 io thread_init_commands 函数 将 从 库 的 uuid 告 诉 主 库 。io thread_init_ 
commands 函 数 通 过 在 当前 连接 上 执行 SET @slave_uuid=uuid 命 令 将 从 库 的 uuid 信 息 存 储 到 当前 连 
接 的 用 户 变量 中 ， 这 样 主 库 就 可 以 通过 获取 当前 连接 中 用 户 变量 eslave_uuid 的 值 来 得 知 从 库 的 


uuid 信 息 。 


第 17 行 代码 调用 register_slave_on_master 函 数 向 主 库 发 送 COM_REGISTER_SLAVE 命 令 , 将 从 库 
在 主 库 上 进行 注册 。 

第 19 行 代码 调用 request_dump 消 数 ， 告 知 主 库 应 该 从 何 处 开始 发 送 binlog 事 件 。 通 常情 况 下 ， 
request_dump 函 数 发 送 COM_BINLOG_DUMP 命 令 给 主 库 ， 而 在 GTID 模 式 下 ， 会 发 送 COM_BINLOG_DUMP_ 
GTID 命 令 给 主 库 ， 后 续 我 们 会 继续 介绍 相关 的 内 容 。 

第 21 行 到 第 29 行 代码 说 明 ，slave IO 线程 进入 一 个 while 循 环 ， 用 于 进行 事件 的 读 了 到 和 记录 。 
read_event 从 连接 中 读 取 事件 , 如 果 没 有 事件 , 将 会 阻塞 在 这 里 等 待 主 库 发 送 事件 , 而 queue_event 
将 读 取 的 事件 写 人 到 relay-log 文 件 中 。flush_master info 将 Master_info 实 例 中 的 信息 同步 到 
master.info 文 件 中 。 


queue_event 函数 的 主要 工作 是 将 收 到 的 事件 写 人 到 relay-log 中 ， 其 代码 如 下 所 示 : 


// sql/rpl_slave.cc 


1. int queue_event(Master_info *mi,const char *buf, ulong event_len) { 
2. Log event type event_type= (Log _event_type)buf[EVENT_TYPE_OFFSET]; 
3. mysql_mutex_t *log lock= rli->relay_log.get_log lock(); 
4. int inc_pos = 0; 
5. switch (event_type) { 
6. case ROTATE _EVENT: 
// 更 新 master log file 和 master log pos 信息 
7. ee 
8. break; 
9. case HEARTBEAT LOG EVENT: 
// 更 新 心跳 时 间 
10. wee 
11. goto skip relay logging; 
12. break; 
13. eran 
14. default: 
15. inc_pos= event_len; 
16. break; 
17. } 


// 将 事件 写 入 到 relay-log 
18. mysql_mutex_lock(log lock); 
19. rli->relay_log.append_buffer(buf, event_len, mi); 
20. mi->set master log pos(mi->get_master_log pos() + inc_pos); 
21. mysql_mutex_unlock(log_ lock) ; 


22.skip_ relay logging: 

23.err: 

24. 

25.} 

第 5 行 到 第 17 行 代码 根据 事件 的 类 型 做 不 同 的 处 理 。 例 如 ， 当 接收 到 的 是 心跳 事件 时 ， 更 新 
最 近 心 跳 时 间 ， 然 后 忽略 该 事件 ; 当 我 们 接收 到 一 个 类 型 为 ROTATE_EVENT 的 事件 时 ,说 明 主 库 的 
binlog 发 生 了 切换 ， 我 们 需要 更 新 Master_info 实 例 mi 中 master log file 和 master log pos 的 信息 
来 反映 这 种 变化 。 


第 18 行 和 第 19 行 代码 用 于 获取 relay-log 的 锁 ， 然 后 调用 append_buffer 将 事件 写 人 到 relay-log 
中 。append_buffer 冰 数 主要 完成 了 以 下 功能 。 


(1) 调用 my_b_ append 函 数 将 接收 到 的 事件 写 人 到 relay-log 的 缓存 中 。 

(2) 调用 flush_and_sync 函 数 ， 将 io_cache 中 的 内 容 刷 新 到 relay-log 并 持久 化 到 磁盘 。 

(3) 在 将 事件 写 入 到 relay-log 文 件 中 之 后 ,判断 当前 relay-log 文 件 的 大 小 是 否 达 到 了 
max_relay_log_size 指 定 的 大 小 ， 如 果 大 于 就 需要 进行 relay-log 的 切换 。 
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(4) 这 时 slave SQL 线 程 还 不 知道 relay-log 有 更 新 了 ， 所 以 需要 调用 signal_update 消 数 通 知 
slave SQL 线程 relay-log 有 更 新 了 ， 可 以 继续 进行 重 放 动 作 了 。 


第 20 行 代码 中 , 由 于 我 们 读 取 了 主 库 的 事件 , 所 以 需要 更 新 Master_info 实 例 mi 中 master_ log_ 
filefilmaster_log pos 的 信息 。 


slaveIO 线 程 的 大 体 执行 流程 是 这 样 的 ， 其 中 省 略 了 一 些 细节 ， 例 如 和 主 库 的 连接 断 开 了 之 


后 的 重 连 等 流程 ， 但 这 并 不 影响 我 们 理解 它 的 工作 原理 。 有 兴趣 的 读者 可 以 自行 翻阅 该 部 分 源 
代码 。 


8.5.7 slave SQL 线程 


slave SQL 线程 的 人 口 函 数 是 void *handle slave sql(void *arg)， 传 人 的 参数 arg 和 slave IO 
线程 一 样 ， 是 Master info 的 实例 active mi。 下 面 我 们 给 出 该 函数 的 关键 代码 : 


// sql\/rpl_slave.cc 

1. void *handle_slave_sql(void *arg) { 

2. THD *thd; 

3. Relay_log info *rli = ((Master_info*)arg)->r1i; 


// 初始 化 工作 


4. thd = new THD; 

5. rli->slave_running = 1; 

6. init_slave thread(thd, SLAVE THD SQL); 

7. rli->init_relay_log pos(rli->get_group relay log name(), 


rli->get group relay log pos()); 


// 检查 util 条 件 


8. 
9. while (!sql_slave killed(thd,rli)) { 
// 检查 util 条 件 
10. wee 
// 读 取 relay-log 的 事件 并 且 重 放 
11. Log event *ev = next_event(rli); 
12. apply event_and update pos(ev, thd, rli...); 
13. 
14. } 
15. 
16.} 


第 4 行 到 第 6 行 代码 用 于 进行 一 些 初始 化 工作 。 将 r1i->slave_running 设 置 为 1, 表示 slave SQL 


线程 正在 运行 。 
第 7 行 代码 调用 init_relay_log_pos 函 数 定位 到 上 次 重 放 的 位 置 。 
第 9 行 到 第 14 行 代码 是 一 个 循环 ， 不 断 从 relay-log 中 读 取 事件 然后 进行 重 放 。 


第 11 行 代码 调用 next_event 函 数 从 relay-log 读 取 下 一 个 事件 。 如 果 成 功 读 取 事件 ， 则 继续 执 
行 。 如 果 返 回 的 是 EOF, 说 明 relay-log 中 没有 新 的 事件 ,阻塞 在 这 等 待 slave IO 线程 通知 relay-log 
有 更 新 。 


第 12 行 代码 调用 apply_event_and_update_pos 函 数 重 放 事 件 ， 并 且 更 新 相关 的 位 置信 息 。 


8.5.8 master dump 线 程 


前 面 介 绍 过 ， 当 从 库 调 用 START SLAVE 命 令 启动 复制 功能 时 ， 从 库 的 slave IO 线程 会 建立 一 个 
到 主 库 的 连接 ， 主 库 和 从 库 之 间 通 过 该 连接 进行 通信 和 后 续 binlog 的 传输 工作 。 主 库 在 服务 端 会 
分 配 相 应 的 线程 来 处 理 该 连接 上 的 所 有 请 求 , 该 线程 就 是 master dump 线 程 。 对 于 主 库 来 说 ,slave 
IO 线程 就 是 一 个 普通 的 客户 端 。 

在 slave IO 线程 连接 到 主 库 之 后 ， 会 获取 主 库 的 时 间 、server_ id 等 信息 ， 并 且 发 送 
COM_REGISTER_SLAVE 命 令 ， 将 从 库 在 主 库 上 进行 注册 ， 最 后 发 送 COM_BINLOG_DUMP 命 令 给 主 库 ， 请 
求 主 库 发 送 binlog 事 件 。 

下 面 给 出 了 CoM_BINLOG_DUMP 命 令 的 处 理 函 数 com_binlog _ dump 的 源 代 码 ， 这 也 是 master dump 
线程 最 主要 的 工作 : 


// sqlrpl master.cc 


1. bool com binlog dump(THD *thd, char *packet, uint packet_length) 
2. { 

3 ulong pos; 

4. String slave_uuid; 

5 const uchar *packet_position= (uchar *) packet; 

6 uint packet_bytes_todo= packet_length; 


7. status_var_increment(thd->status_var.com_other); 

8. thd->enable_slow_log= opt_log slow_admin_statements; 
9. if (check_global_access(thd, REPL_SLAVE_ACL)) 

10. DBUG_RETURN( false); 


// 从 packet 中 读 取 position，position 指 明了 从 哪儿 开始 复制 
11. READ INT(pos, 4); 
12. SKIP(2); /* flags 字段 暂时 没有 使 用 */ 
13. READ_INT(thd->server id, 4); 
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// 获取 slave 的 uuid， 关 闭 该 slave 对 应 的 残留 的 dump 线 程 
14. get_slave_uuid(thd, &slave_uuid); 
15. kill zombie dump threads(&slave_uuid) ; 


// 7) F\mysql_binlog send& žk Rix binlog 
16. general_log print(thd, thd->get_command(), "Log: '%s' Pos: %ld", 
packet + 10, (long) pos); 
17. mysql_binlog send(thd, thd->strdup(packet + 10), (my_off_t) pos, NULL); 


18. unregister_slave(thd, true, true/*need_lock_slave_list=true*/); 
19. DBUG_RETURN(true) ; 


20.error_malformed_packet: 

21. my _error(ER MALFORMED PACKET, MYF(0)); 
22. DBUG_RETURN(true) ; 

23.} 


下 面 我 们 来 分 析 下 com_binlog_dump 函 数 的 执行 流程 。 


第 9% 行 代码 检查 当前 连接 是 否 具 有 复制 权限 ， 这 对 应 于 我 们 创建 复制 账号 时 是 否 赋予 了 该 账 
‘REPLICATION SLAVE 权 限 。 如 果 没 有 复制 权限 ， 直 接 结束 运行 ， 否 则 继续 运行 。 


第 11 行 到 第 13 行 代码 用 于 从 packet 中 读 取 发 送 binlog 事 件 的 开始 位 置 , 获取 从 库 的 server id 


信息 。 


第 14 行 代码 调用 get_slave_uuid 函 数 获取 slave 的 uuid 信 息 。 前 面 介 绍 过 ,从 库 的 slave IO 线程 
在 连接 到 主 库 之 后 会 将 自己 的 uuid 信 息 通过 SET @slave_uuid=uuid 命 令 保存 到 当前 连接 的 用 户 变 
量 6slave_uuid 中 ， 所 以 get_slave_uuid 函 数 只 需要 取出 当前 连接 的 用 户 变量 6slave_uuid 的 值 就 
可 以 了 。 


第 15 行 代码 调用 kil1_zombie dump_threads 检 查 该 从 库 之 前 是 否 有 对 应 的 master dump 线 程 还 
没有 关闭 ， 如 果 有 ， 就 将 其 关闭 。master dump 线 程 在 发 送 完 binlog 事 件 后 会 进入 等 待 状态 ， 等 待 
binlog 更 新 ， 如 果 在 此 期 间 slave 停 止 了 ， 然 后 又 快速 重新 连接 到 该 主 库 ， 那 么 在 主 库 上 会 出 现 两 
“master dump 线 程 与 该 slave 对 应 : 一 个 是 之 前 建立 的 ， 处 于 等 待 binlog 更 新 的 master dump 线 程 ; 
另 一 个 是 由 于 从 库 最 新 连接 上 来 而 创建 的 master dump 线 程 。 此 时 ， 之 前 建立 的 那个 master dump 
线程 需要 关闭 。 


第 17 行 代码 执行 ysql_binlog_send 函 数 向 从 库 发 送 binlog 事 件 。 


第 18 行 代码 将 从 库 的 信息 注销 掉 。 如 果 执 行 到 这 里 ,说 明 已 经 从 mysql_binlog _send 函 数 返 回 ， 
也 就 是 说 复制 工作 结 


下 面 我 们 继续 看 一 下 binlog 发 送 函 数 mysql_bin1og_send 的 主要 工作 : 


// sqlrpl master.cc 


1. void mysql_binlog send(THD *thd, char *log ident, my_off_t pos, const Gtid_set *slave_gtid_executed) 
2. 


3. { 
// 如 果 binlog 没 有 打开 或 者 server id 没 有 配置 ， 则 结束 
4. aes 
// 打开 binlog 文 件 ， 定 位 到 正确 的 位 置 

5. anes 

6. while (!net->error && net->vio != 0 && !thd->killed) 

7. { 

8. ae 

9. while (!(error= Log event::read_log event(&log, packet, log lock, 
current_checksum_alg, 
log file_name, 
&is_active_binlog))) 

10. { 

11. öss 

12. my_net_write(net, (uchar*) packet->ptr(), packet->length()) 

13. i 

14. } 

// 进入 阻塞 状态 ， 等 待 binlog 更 新 

15. i 

16. } 

17.} 


先 来 看 一 人 mysql_binlog_send 函 数 的 参数 : 参数 thd 表 示 该 master dump 线 程 的 上 下 文 信息 ; 
参数 log_ ident 和 pos 指 出 发 送 binlog 事 件 的 开始 位 置 ; 参数 slave_gtid_executed 表 示 slave 已 经 执 
行 过 的 GTID ， 不 需要 再 发 送 给 slave， 该 参数 在 开启 GTID 模 式 下 的 复制 功能 时 使 用 。 


下 面 给 出 了 mysql_binlog_send 函 数 的 执行 流程 。 
master dump 线 程 的 主要 工作 就 是 循环 读 取 并 发 送 binlog 事 件 给 从 库 。 


第 9 行 到 第 14 行 的 循环 调用 Log event::read log event A Mix H binlog FAY (F, JAH Ga 
my_net_write 函 数 将 事件 发 送 给 从 库 。 

如 果 代 码 执行 到 第 15 行 ,说 明 读 取 到 了 EOF 标 志 , 表明 所 有 binlog 事 件 已 经 发 送 完毕 ，master 
dump 线 程 进入 阻塞 状态 ， 等 待 binlog 的 更 新 ， 并 且 定 期 地 发 送 心跳 包 给 从 库 。 


通过 以 上 的 介绍 ， 我 们 已 经 大 体 知 道 了 master dump 线 程 的 执行 过 程 ， 该 部 分 的 代码 在 
sql/rpl_master.cc 中 ， 有 兴趣 想 了 解 具体 细节 的 读者 可 以 自行 翻阅 。 


默认 情况 下 , 复制 是 异步 进行 的 , 客户 端 提交 事务 给 主 库 , 主 库 将 事务 写 人 到 存储 引擎 和 binlog 
中 后 立刻 返回 给 客户 端 ,告诉 客户 端 事务 成 功 执行 了 ,但 此 时 该 事务 可 能 还 没 来 得 及 复制 到 从 库 上 。 
如 果 主 库 在 此 时 发 生前 省 或 者 主 库 所 在 的 机 器 发 生 宕 机 , 会 导致 主 从 切换 的 发 生 , 此 时 客户 端 访 问 
新 选举 出 的 主 库 时 , 是 不 会 看 到 刚刚 提交 的 数据 的 , 但 对 于 客户 端 来 说 , 这 些 数据 是 提交 成 功 了 的 。 


8.6.1 半 同 步 复制 的 工作 原理 


从 MySQL 5.5 以 及 MariaDB 5.5 开 始 ，MariaDB/MySQL 通 过 插件 的 形式 支持 半 同 步 复 制 。 主 
库 在 执行 完 客 户 端 提交 的 事务 之 后 不 是 立刻 返回 给 客户 端 , 而 是 等 待 至 少 一 个 从 库 接收 到 了 该 事 
务 之 后 才 返 回 给 客户 端 。 


前 面 提 到 过 ， 默 认 情况 下 ， 复 制 是 异步 进行 的 ， 主 库 将 事务 提交 到 存储 引擎 和 binlog 之 后 立 
刻 返回 给 客户 端 , 这 里 没有 任何 机 制 保证 该 事务 同步 到 从 库 上 。 全 同步 的 复制 是 指 当 主 库 执行 完 
一 个 事务 , 所 有 的 从 库 也 执行 了 该 事务 之 后 才能 返回 给 客户 端 。 因 为 需要 等 待 所 有 从 库 执行 完 该 
事务 后 才能 返回 , 所 以 全 同步 复制 的 性 能 势必 会 受到 严重 的 影响 。 半 同步 复制 是 异步 复制 和 全 同 
步 复 制 的 一 个 折 中 。 相 对 于 异步 复制 , 半 同 步 复制 提高 了 数据 的 安全 性 ， 当 客户 端 提交 的 事务 返 
回 之 后 ,可 以 保证 至 少 两 个 地 方 存在 该 事务 ,同时 它 也 造成 了 一 定 的 延迟 ,这 个 延迟 至 少 是 一 个 
TCP/IP 往 返 的 时 间 。 因 此 ， 半 同步 复制 最 好 在 低 延 时 的 网 络 中 使 用 , 例如 局 域 网 内 ,这 样 就 能 够 
缩小 半 同 步 复制 的 负面 影响 , 否则 ， 如 果 主 库 和 从 库 之 间 的 网 络 状况 比较 糟糕 ， 半 同步 复制 产生 
的 事务 提交 延迟 将 是 不 可 忍受 的 。 后 面 我 们 会 介绍 几 种 在 高 延迟 环境 下 使 用 半 同 步 复 制 的 思路 ， 
因为 有 的 时 候 这 种 需求 确实 存在 。 例 如 , 为 了 防止 机 房 断 电 而 导致 的 服务 不 可 用 , 我 们 会 进行 跨 
机 房 容 灾 工 作 , 将 主 库 和 从 库 放 在 不 同 的 机 房 ， 而 不 同 机房 之 间 的 网 络 延 时 通常 是 儿 毫 秒 甚至 几 
十 毫秒 。 半 同步 复制 的 主要 流程 如 图 8-3 所 示 。 
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8.6.2 ” 半 同 步 的 安装 和 配置 


本 方 中 , 我 们 将 详细 介绍 半 同 步 复制 的 安装 以 及 配置 。 要 想 使 用 半 同 步 复制 ,必须 满 足以 下 
几 个 条 件 。 


O MySQL 5.5/MariaDB 5.5 或 者 以 上 的 版 本 。 
O has_dynamic loading 系 统 变量 设置 为 YES。 
O 复制 已 经 配置 了 并 且 正 在 运行 。 


半 同 步 复制 是 通过 插件 形式 来 实现 的 ， 所 以 在 使 用 之 前 必须 安装 该 插件 。MariaDB/MySQL 
的 半 同 步 插件 包含 在 发 布 版 本 中 ， 解 压 发 布 版 本 ， 将 semisync_master* 文 件 复制 到 主 库 的 plugins 
文件 夹 中 ， 将 semisync_slave* 文 件 复制 到 所 有 从 库 的 plugins 文 件 夹 中 。 当 然 ， 你 也 可 以 使 用 
MariaDB/MySQL 的 源 代码 进行 编译 ， 获 得 半 同 步 复 制 插件 : 


jinpengzhang@jinpengzhang: /usr/local/mysql/lib/plugin$ 1s 


adt_null.so auth _socket.so daemon_example.ini mypluglib.so qa_auth_interface.so 
semisync_master.so validate_password.so 
auth.so auth_test_plugin.so libdaemon_example.so qa auth client.so qa_auth_server.so 


semisync_slave.so 


接 下 来 分 别 在 主 库 和 从 库 上 执行 INSTALL PLUGIN 命 令 加 载 半 同 步 插件 。 
在 主 库 上 加 载 半 同步 复制 插件 的 代码 如 下 : 


mysql> INSTALL PLUGIN rpl_semi_sync_master SONAME "semisync_master.so"; 

在 从 库 上 加 载 半 同步 复制 插件 的 代码 如 下 : 

mysql> INSTALL PLUGIN rpl_semi_sync_slave SONAME "semisync_slave.so"; 

此 时 可 以 在 主 库 和 从 库 上 执行 SHON PLUGINS 命 令 来 查看 插件 是 否 安装 成 功 。 
在 从 库 上 查看 插件 的 安装 情况 : 


mysql> SHOW PLUGINS; 


+----------------------- +----------------- +---------------- +------------------- +-------- + 
| Name | Status | Type | Library | . | 
+----------------------- +------------------ +---------------- +------------------- +-------- + 
| binlog | ACTIVE | STORAGE ENGINE | NULL E | 
| rpl_semi_sync_slave | ACTIVE | REPLICATION | semisync_slave.so | ... 

+----------------------- +------------------ +---------------- +------------------- +-------- + 


在 主 库 上 查看 插件 的 安装 情 况 : 
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mysql> SHOW PLUGINS; 


+-------- 十 
| Name | Status | Type | Library | | 
+---------------------- +----------- +------------------ +-------------------- +-------- 十 
| binlog | ACTIVE | STORAGE ENGINE | NULL | | 
| rpl_semi_sync_master | ACTIVE | REPLICATION | semisync_master.so | ... | 
+---------------------- +----------- +------------------ +-------------------- +-------- 十 


插件 安装 完 之 后 ， 接 下 来 必须 在 主 库 和 从 库 上 都 开启 插件 ， 如 果 只 在 一 端 开启 插件 ,复制 还 
是 异步 进行 的 。 可 以 通过 设置 主 库 和 从 库 上 的 相应 变量 来 开启 插件 。 


在 主 库 上 开启 半 同 步 复 制 插件 : 


mysql> SET GLOBAL rpl_semi_sync_master_enabled = 1; 
mysql> SET GLOBAL rpl_semi_sync_master_timeout = N; // 单位 为 毫秒 


在 从 库 上 开启 半 同 步 复 制 插件 : 


mysql> SET GLOBAL rpl_semi_sync_slave_enabled = 1; 


变量 rp1_semi_sync_master timeout 表 示 主 库 等 待 从 库 响 应 的 超时 时 间 ， 如 果 在 这 个 时 间 内 
还 没有 收 到 从 库 的 响应 ， 复 制 将 切换 到 异步 。 

至 此 ， 我 们 已 经 配置 好 了 半 同 步 复 制 插件 所 需 的 相关 条 件 ， 但 是 此 时 的 复制 仍然 是 异步 的 ， 
这 是 因为 我 们 是 在 复制 正在 进行 的 状态 下 配置 的 半 同 步 复 制 。 想 要 使 半 同 步 复制 生效 ,必须 先 停 
止 slave IO 线程 ， 然 后 重新 开启 该 线程 ， 这 样 slave IO 线程 在 连接 到 主 库 之 后 ， 会 以 半 同 步 的 方式 
在 主 库 上 注册 ， 之 后 半 同 步 复 制 才能 生效 。 


在 从 库 上 执行 以 下 命令 来 重启 slave IO 线程 : 


mysql> STOP SLAVE IO THREAD; 
mysql> START SLAVE IO THREAD; 


通过 设置 全 局 变量 来 开启 半 同 步 复制 的 方式 在 MariaDB/MySQL 重 新 启动 之 后 ， 变 量 的 值 又 
会 变 回 到 默认 值 ， 所 以 必须 在 每 次 MariaDB/MySQL 启 动 之 后 都 要 设置 变量 的 值 ， 如 果 忘 记 设置 
了 ， 复 制 默认 还 是 异步 的 。 为 了 避免 这 种 情况 发 生 ， 可 以 在 MariaDB/MySQL 启 动 之 前 将 这 些 值 
写 人 到 配置 文件 中 ， 上 具体 如 下 所 示 。 


主 库 配 置 文件 : 


[mysqld] 
rpl_semi_sync_master_enabled=1 
rpl_semi_sync_master_timeout=10000 # 10 秒 


从 库 配置 文件 : 
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per 


[mysqld] 
rpl_semi_sync_slave_enabled=1 


86.3 半 同 步 复制 的 实现 


前 面 已 经 介绍 了 半 同 步 复 制 的 工作 流程 , 本 节 中 我 们 将 从 源 代码 的 角度 来 分 析 半 同步 复制 是 
如 何 实现 的 。 半 同步 复制 是 由 主 库 和 从 库 协 同 完成 的 , 这 里 我 们 将 从 主 库 和 从 库 两 个 角度 分 别 展 
开 讨 论 。 在 MySQL/MariaDB 中 ， 如 果 开 局 的 是 每 连接 每 线程 模式 ， 每 个 客户 端 连接 到 服务 端 之 
后 ， 都 会 在 服务 端 生成 一 个 线程 处 理 该 客户 端的 所 有 请 求 ， 我 们 称 该 服务 端 线程 为 事务 线程 。 

1. 主 库 上 的 工作 


在 主 库 上 ， 半 同步 复制 的 主要 工作 由 类 ReplSemi SyncMaster 来 完成 。 


@ 类 ReplSemiSyncMaster 
我 们 先 来 看 一 下 类 ReplSemiSyncMaster 的 定义 : 
// plugin/semisync/semisync_master.h 


Class ReplSemiSyncMaster 


{ 

private: 
ActiveTranx *active_tranxs ; /* 正在 等 待 从 库 响 应 的 活跃 事务 链表 */ 
bool init done ; /* 对 象 是 否 初 始 化 */ 
mysql_cond_t COND binlog send_; /* 用 于 事务 线程 与 dump 线 程 之 间 的 通知 */ 
mysql_mutex_t LOCK_binlog ; /* 多 线程 修改 对 象 成 员 之 前 必须 获取 该 锁 */ 


/*# 从 库 已 经 响应 的 最 大 位 置 */ 
Bool reply file_name_inited ; 
Char reply file name [FN REFLEN]; 
my off t reply file pos ; 


/* 所 有 事务 线程 中 等 待 从 库 响 应 的 最 小 位 置 */ 
bool wait file name inited ; 

char wait file name [FN REFLEN]; 

my_off t wait file pos ; 


/* binlog 的 最 大 位 置 */ 

Bool commit file name inited ; 
Char commit file name [FN REFLEN]; 
my_off t commit file pos ; 


volatile bool master enabled ; /* 对 应 于 rpl] semi sync master enabled 交 量 */ 
Unsigned long wait timeout ; /* 对 应 于 rpl semi sync master timeout 变 量 */ 
Bool state_; /* 当 半 同步 超时 的 时 候 会 暂时 关闭 半 同 步 */ 


= 
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private: 
bool is on() const { return (state_); } 
void cond broadcast(); 
int cond _timewait(struct timespec *wait_time); 


void set_master_enabled(bool enabled) { master enabled = enabled; } 


int switch off(); 
int try_switch_on(int server_id, const char *log file name, my_off_t log file pos); 


public: 
int enableMaster(); /* 关闭 主 库 半 同 步 */ 
int disableMaster(); /# 开启 主 库 半 同 步 */ 


bool getMasterEnabled() const { return master_enabled_; } 


int commitTrx(const char *trx_wait_binlog name,my_off_t trx wait binlog pos); 
int writeTranxInBinlog(const char *log file_name,my_off_t log file pos); 

int readSlaveReply(NET *net, uint32 server_id, const char *event_buf); 

int reportReplyBinlog(uint32 server_id,const char *log file_name, 

my off t end offset,bool skipped event= false); 


J 

在 继续 介绍 半 同 步 复制 的 实现 之 前 ， 我 们 需要 清楚 binlog 是 线性 的 ， 这 对 我 们 理解 半 同 步 复 
制 中 的 各 种 位 置 关 系 非常 有 帮助 。 如 图 8-4 所 示 ,“ 已 响应 的 最 大 位 置 ”表示 在 此 之 前 的 所 有 binlog 
ME (至少 一 个 从 库 ) 已 经 接收 到 ,在 “已 响应 的 最 大 位 置 ” 之 前 的 事务 是 不 需要 等 待 的 ， 可 以 
直接 返回 给 客户 端 ， 例 如 图 8-4 中 的 事务 T2， 而 在 “已 响应 的 最 大 位 置 ” 之 后 的 所 有 事务 必须 等 
待 ， 例 如 图 8-4 中 的 事务 T1 和 事务 T3。 当 收 到 一 个 从 库 的 响应 中 包含 的 位 置 大 于 “已 响应 的 最 大 
位 置 ” 时 ,“ 已 响应 的 最 大 位 置 ” 就 应 该 相应 地 往 后 移动 。 


已 响应 的 最 大 位 置 。 binlog 结 束 位 置 


| | 
az! 


T2 TI T3 
图 8-4” 半 同步 复制 中 的 位 置 关系 
接着 我 们 给 出 类 ReplSemiSsyncMaster 中 各 个 成 员 的 含义 。 


口 active tranxs_: 该 成 员 用 于 管理 所 有 正在 等 待 从 库 响应 的 事务 。 事 务 在 binlog 中 有 个 结 
位 置 , 该 结束 位 置 以 一 个 结构 体 TranxNode 表 示 。 当 有 多 个 事务 在 等 待 从 库 的 响应 时 ,所 有 
事务 的 TranxNode 按 照 事 务 在 binlog 中 结束 位 置 的 前 后 关系 排列 ， 用 成 员 next_ 组 织 起 来 , JB 


binlog 
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成 一 个 链表 , 保存 在 active_tranxs_ 中。 例如， 图 8-4 中 的 事务 T1 和 事务 T3 都 需要 等 待 从 库 
的 响应 ， 那 么 它们 就 会 按 顺 序 组 成 一 个 链表 (T1,T3 )。 下 面 是 TranxNode 结 构 的 定义 : 


// plugin/semisync/semisync master.h 


struct TranxNode { 
char log name_ [FN_REFLEN]; 
my _ off t log pos ; 
struct TranxNode *next_; 
B 
口 COND_binlog_send_: 负责 master dump 线 程 和 事务 线程 之 间 的 通知 。 当 事务 线程 将 事务 提 
交 到 存储 引擎 和 binlog 之 后 ， 如 果 需 要 等 待 从 库 的 响应 ， 那 么 会 阻塞 在 该 条 件 变量 上 ， 等 
待 master dump 线 程 接收 到 从 库 的 响应 之 后 将 其 唤醒 。 
Q reply file_name_#llreply file_pos_: 这 两 个 成 员 一 起 标识 了 图 8-4 中 的 “已 响应 的 最 大 
位 置 "。 也 就 是 说 ， 在 此 位 置 之 前 的 所 有 事务 从 库 确定 已 经 接收 到 了 。 
口 reply_file_name_inited_: 如 果 该 成 员 为 true， 表 明 reply_file_name_ 和 和 reply file_pos_ 
的 值 有 效 。 
口 wait_file_name_ 和 wait_file_pos_: 这 两 个 成 员 标 识 了 所 有 正在 等 待 从 库 响应 的 事务 
中 “最 小 ”的 一 个 ， 这 里 最 小 的 意思 是 在 binlog 中 的 结束 位 置 最 靠 前 ， 例 如 图 8-4 中 的 
事务 Tl1。 
口 commit_file_name_: 当前 binlog 的 文件 名 。 
口 commit_file_pos_: 当前 binlog 的 结束 位 置 ， 用 于 检查 wait_file_name_、wait _file_pos_、 
reply file name 和 reply file pos 的 合法 性 。 


接着 我 们 介绍 一 下 类 ReplSemiSyncMaster 中 几 个 成 员 函 数 的 作用 。 


O commitTrx: 事务 线程 将 事务 提交 到 存储 引 敬 和 binlog 之 后 会 调用 该 函数 ， 进 入 等 待 状态 ， 
等 待 master dump 线 程 通知 该 事务 已 经 被 从 库 接 收 了 或 者 发 生 超时 。 

O writeTranxInBinlog: 当 事 务 被 提交 到 binlog 中 之 后 , 会 调用 该 函数 来 更 新 commit file name_ 
以 及 commit file pos 的 值 。 

口 readSlaveReply: master dump 线 程 发 送 完 一 个 事务 的 binlog 事 件 之 后 ， 会 调用 该 函数 等 待 
从 库 响应 ， 接 收 到 响应 之 后 ， 会 通知 所 有 正在 等 待 的 事务 线程 。 

D reportReplyBinlog: 它 被 readSlaveReply 函 数 调 用 , 通知 所 有 正在 等 待 的 事务 线程 接收 到 
了 从 库 的 响应 ， 而 事务 线程 各 自 检 查 从 库 返 回 的 响应 包 中 包含 的 位 置 是 否 大 于 等 于 自己 
的 事务 在 binlog 中 的 结束 位 置 ， 如 果 大 于 等 于 , 说 明 从 库 已 经 接收 到 了 该 事务 ,可 以 返回 
给 客户 端 了 7， 否 则 需要 继续 等 待 下 去 。 


类 ReplSemisyncMaster 在 全 局 只 有 一 个 实例 repl_semisync, 该 实例 被 所 有 的 master dump 线 程 
和 事务 线程 共同 使 用 。 


= 
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@ commitTrx $ žk 


当 事 务 线程 将 事务 提交 到 存储 引擎 和 binlog 之 后 , 如 果 开 启 半 同 步 , 会 调用 commitTrx 函 数 等 
待 master dump 线 程 接收 到 从 库 的 响应 之 后 通知 自己 。 下 面 我 们 列 出 了 该 函数 的 主要 源 代码 ; 


// plugin/semisync/semisync_master.cc 


1. int ReplSemiSyncMaster: :commitTrx(const char *trx_wait_binlog name, 
my_off_t trx_wait_binlog pos) 


PATE | 
3. if (master_enabled_ && trx_wait_binlog name) 
4. { 
5. struct timespec abstime; 
6. mysql_mutex_lock(&LOCK_binlog_); 
7. if (!master_enabled_ || !is_on()) goto 1 end; 
8. gen_timeout_abstime(&abstime, wait_timeout_); /* 获取 超时 的 绝对 时 间 */ 
while (is_on()) 
10. { 
11. if (reply file name inited_) 
12 . { 
13. int cmp = ActiveTranx::compare(reply file name_, reply file pos , 
trx_wait_binlog name, trx_wait_binlog pos); 
14. if (cmp >= 0) /* 已 经 发 送 了 该 事务 所 有 相关 的 binlog 到 从 库 ， 不 需要 等 待 */ 
15. break; 
16. } 
17. if (wait file name inited ) 
18. { 
19. int cmp = ActiveTranx::compare(trx wait binlog name, 
trx wait binlog pos, wait file name , wait file pos ); 
20. if (cmp <= 0) 
21. { 
22. strcpy(wait_file_name_, trx_wait_binlog name); 
23. wait file pos = trx wait binlog pos; 
24. } 
25. } 
26. else 
27. { 
28. strcpy(wait_file_name_, trx wait binlog name); 
29. wait file pos = trx_wait_binlog pos; 
30. wait file name inited = true; 
31. } 
32. wait_result = cond timewait(&abstime); /* 阻塞 在 此 ， 等 待 超时 或 者 dump 线 
程 通知 收 到 从 库 的 响应 */ 
33 . if (wait result != 0) /* 超时 */ 


34. { 
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35. rpl_semi_sync_master_wait_timeouts++; 
36. switch_off(); /* 关闭 半 同 步 ， 并 唤醒 所 有 等 待 的 线程 */ 
37. } 


41. return 0; 
42.} 


该 函数 的 参数 trx_wait_binlog_name 和 trx_wait_binlog_pos 表 示 该 事务 在 binlog 中 的 结束 位 置 。 


第 3 行 代码 判断 半 同 步 复制 是 否 可 用 ， 如 果 不 可 用 ， 该 函数 直接 返回 ， 否 则 进入 半 同 步 复 制 
的 流程 。 如 果 主 库 执行 了 SET GLOBAL rpl semi sync_master_enabled=1 命 令 ， 那 么 变量 master 
enabled 的 值 等 于 1。 


代码 第 6 行 获取 锁 。 因 为 后 面 的 代码 可 能 会 修改 某 些 成 员 的 值 ， 而 所 有 的 master dump 线 程 和 
事务 线程 共用 一 个 ReplSemisyncMaster 实 例 ， 所 以 必须 用 锁 保 护 。 该 锁 会 在 第 32 行 代码 中 的 
cond timewait 函 数 内 部 释放 。 


第 7 行 代码 用 于 判断 半 同 步 开关 是 否 打开 。 当 半 同 步 复 制 发 生 超 时 时 ， 会 暂时 关闭 半 同 步 复 
制 (第 33 行 到 第 37 行 代码 )。is_on 函 数 用 于 判断 半 同 步 复制 是 否 因为 超时 而 被 关闭 。 


第 8 行 代码 生成 了 一 个 该 事务 等 待 响应 的 绝对 超时 时 间 abstime, 在 第 32 行 调用 cond_timewait 
时 会 使 用 该 变量 。 


接 下 来 进入 一 个 while 循 环 ， 进 行 真正 的 工作 。 如 果 半 同步 被 暂时 关闭 ， 那 么 事务 线程 直接 
返回 给 客户 端 。 


第 11 行 到 第 16 行 代码 用 于 判断 当前 “已 响应 的 最 大 位 置 ”是 否 大 于 等 于 事务 在 binlog 中 的 结 
束 人 位置， 如果 大 于 等 于 ， 表 明 该 事务 的 所 有 binlog 事 件 已 经 被 从 库 接收 ， 可 以 结束 该 函数 ， 事 务 
线程 可 以 返回 给 客户 端 。 


由 于 binlog 是 排他 写 和 人 的 , 并 且 事 务 是 一 次 性 完整 写 人 的 , 所 以 不 同事 务 在 binlog 中 的 位 置 取 
决 于 该 事务 是 何 时 写 入 binlog 中 的 。 第 17 行 到 第 31 行 代码 做 的 事情 是 记录 所 有 等 待 事 务 中 最 先 写 
入 binlog 的 事务 在 binlog 中 的 结束 位 置 ， 我 们 称 该 位 置 为 等 待 的 最 小 位 置 。 

第 32 行 代码 调用 了 cond _ timewait 函 数 , 事务 线程 将 会 阻塞 在 这 , 等 待 超时 或 者 被 master dump 
线程 在 接收 到 从 库 发 来 的 响应 之 后 唤醒 。 

第 33 行 代码 判断 cond timewait 是 否 因为 超时 而 返回 的 ,如果 是 ， 则 调用 switch_off 函 数 暂 时 


关闭 半 同 步 复 制 并 且 唤 醒 所 有 正在 等 待 的 事务 线程 , 避免 无 限 等 待 下 去 ,使 数据 库 进 入 假死 状态 。 
如 果 事 务 线程 是 因为 master dump 线 程 接收 到 从 库 的 响应 ， 并 且 更 新 了 “已 响应 的 最 大 位 置 ”而 
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被 唤醒 的 ， 这 时 程序 会 跳 到 第 11 行 ， 继 续 判 断 最 新 的 “已 响应 的 最 大 位 置 ”是 否 大 于 等 于 事务 在 


binlog 中 的 结束 位 置 。 


@ master dump 线 程 在 半 同 步 中 的 工作 


master dump 线 程 发 送 完 一 个 事务 的 所 有 事件 之 后 ,会 调用 readSlaveReply 函 数 来 等 待 从 库 的 
响应 。 当 收 到 从 库 的 响应 之 后 ， 解 析 其 中 的 位 置信 息 ， 然 后 调用 reportReplyBin1og 函 数 ， 根 据 情 


况 来 判断 是 否 需要 唤醒 所 有 正在 等 待 的 寻 


// plugin/semisync/semisync_master.cc 


1. int ReplSemiSyncMaster: : reportReply 


FIRE reportReplyBinlogrh ACH) = (tesa RATAN: 


Binlog(uint32 server_id, 
const char *log file_name, 
my_off t log file pos) 


2 

3. int cmp; 

4. bool need_copy send_pos = true; 

5. bool can_release threads = false; 

6. if (!(getMasterEnabled())) /* 判断 半 同 步 是 否 开 局 */ 
7. return 0; 

8. mysql_mutex_lock(&LOCK_binlog_); 

9. if (!getMasterEnabled()) /* 判断 半 同 步 是 否 开 启 */ 

10. goto 1 end; 


11. if (!is_on()) /* 如 果 半 同步 由 于 超时 暂时 关闭 ， 尝 试 重新 开启 */ 


12. try_switch_on(server_id, lo 


13. if (reply file name_inited_) 


g file_name, log file pos); 


14. { 
15. cmp = ActiveTranx::compare(log file name, log file_pos, 
reply file name_, reply file pos ); 
16. if (cmp < 0) 
17. need copy _send_pos = false; 
18. } 
19. if (need_copy_send_pos) 
20. { 
21. strcpy(reply file name , log file_name); 
22. reply file pos = log file pos; 
23. reply file name inited = true; 
24. active_tranxs_->clear_active_tranx_nodes(log file name, log file pos); 
25. } 


26. cmp = ActiveTranx: :compare(repl 


y file name_, reply file pos , 
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27. if ( 
28. { 


29. 
30. 
31. } 
32.1 end: 


wait file name_, wait file pos ); 


cmp >= 0) 


大 至 少 一 个 事务 线程 可 以 返回 */ 
can_release threads = true; 
wait_file name inited = false; 


33. mysql_mutex_unlock(&LOCK_binlog_); 


34. ”if (can_release threads) /* “RA PTA F4 RAL */ 
35. cond_broadcast(); 

36. return 0; 

37.} 


先 来 看 一 下 reportReplyBinlog 函 数 的 参数 :server id 表明 是 哪个 从 库 发 来 的 响应 ; log file_ 


name 和 1o8g_file_pos 是 包含 在 响应 中 的 位 置信 息 ,说 明 在 此 位 置 之 前 的 所 有 binlog 事 件 在 该 从 库 中 


都 接收 到 。 


第 6 行 代码 用 于 判断 半 同 步 复 制 是 否 开启 ， 如 果 没 有 开启 直接 返回 ， 否 则 继续 执行 。 
第 8 行 到 第 9 行 代码 在 获取 锁 保护 之 后 又 做 了 一 次 判断 ， 判 断 半 同步 是 否 开启 。 


第 11 行 到 多 


12 行 代码 用 于 检查 半 同 步 复 制 是 否 由 于 超时 而 被 关闭 , 女 


[有 果 是 的 话 尝试 重新 开启 


半 同 步 复 制 。 由 此 可 知 ， 当 半 同 步 复 制 发 生 超 时 时 , 会 暂时 关闭 半 同 步 复 制 , 在 此 期 间 复 制 是 异 
步 进行 的 ， 当 再 次 接收 到 从 库 的 响应 时 半 同 步 复 制 才 会 重新 开启 。 


第 13 行 到 第 18 行 代码 用 于 判断 接收 到 的 响应 中 包含 的 位 置信 息 是 否 比 当 前 “已 响应 的 最 大 位 
置 ” 更 靠 后 ， 如 果 是 的 话 ， 需 要 更 新 “已 ACK 的 最 大 位 置 ”。 


第 19 行 到 第 25 行 代码 说 明 ， 如果 当 前 接收 到 的 响应 中 包含 的 位 置 比 “已 响应 的 最 大 位 置 ”更 


靠 后 ， 更 新 “已 响应 的 最 大 位 置 *， 并 | 


表 中 删除 ， 表 示 这 些 事务 不 需要 继续 等 待 下 去 了 。 


第 26 行 到 第 31 行 代码 用 于 判断 是 否 有 事务 线程 需要 被 唤醒 。 
第 34 行 和 第 35 行 代码 说 明 ， 如 果 有 和 


昌 将 所 有 位 于 该 位 置 之 前 的 正在 等 待 的 事务 从 活跃 事务 列 


有 务 线程 需要 被 唤醒 ,唤醒 所 有 等 待 的 事务 线程 ， 让 它们 


各 自 检 查 自己 是 否 需要 继续 等 待 下 去 。 这 时 所 有 被 唤醒 的 事务 线程 会 执行 commitTrx 函 数 的 第 11 
行 到 第 16 行 ， 判 断 是 否 可 以 返回 给 客户 端 ， 还 是 需要 继续 等 待 下 去 。 


2. 从 库 上 的 工作 


下 面 我 们 以 从 库 的 角度 来 看 一 下 slave IO 线程 在 半 同 步 复 人 


判 开局 的 情况 下 做 了 哪些 额外 的 工作 。 
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在 从 库 上 ，slave IO 线程 负责 从 主 库 接 收 binlog 事 件 ， 并 将 其 写 人 到 relay-log 中 。 当 半 同 步 复 
制 开启 的 情况 下 ， 接 收 完 一 个 事务 的 所 有 binlog 事 件 之 后 ，slave IO 线程 会 向 主 库 发 送 一 个 响应 ， 


告知 主 库 从 库 已 经 接收 到 了 该 事务 。 


@ ReplSemiSyncSlave# 


在 从 库 上 , 控制 半 同 步 复制 的 是 ReplSsemisyncSlave 类 , 该 类 在 全 局 有 唯一 的 实例 rep1_semisync 


被 slave IO 线程 所 使 用 。 由 于 在 MySQL 中 一 个 从 库 只 能 有 一 个 主 库 , 所 以 只 会 有 一 个 


slave IO 线程 ， 


不 存在 多 个 线程 同时 操作 该 类 的 情况 ， 因 此 ， 相 对 于 ReplSemiSyncMaster 类 ，ReplSemiSyncSlave 


类 少 了 很 多 并 发 控制 。 


在 目前 版 本 的 MariaDB 中 ， 如 果 使 用 多 源 复制 ,那么 半 同 步 复 制 是 不 能 使 用 的 ， 导 致 这 个 问 


题 的 原因 与 半 同 步 复 制 插件 中 类 ReplSemiSyncSlave 的 实现 有 关 。 


下 面 我 们 给 出 类 ReplSemiSyncSlave 的 定义 : 


// plugin/semisync/semisync_slave.h 


class ReplSemiSyncSlave 


{ 

private: 
bool init done ; /* 实例 是 否 初始 化 */ 
bool slave enabled ; /* 半 同 步 是 否 开 局 */ 
MYSQL* mysql reply; /# 用 于 向 主 库 发 送 响应 */ 

public: 


ReplSemiSyncSlave() :slave enabled (false) {} 
~ReplSemiSyncSlave() {} 


void initObject(); 
bool getSlaveEnabled() const { return slave_enabled_; } 
void setSlaveEnabled(bool enabled) { slave enabled_ = enabled; } 


/* 当 接 收 完 一 个 事务 的 所 有 事件 之 后 ， 会 调用 该 函数 向 主 库 发 送 响应 包 */ 


int slaveReply(MYSOL *mysql, const char *binlog filename,my_off_t binlog filepos); 


}; 


类 ReplSemisyncSlave 的 结构 非常 简单 ， 下 面 我 们 给 出 这 个 类 各 个 成 员 的 具体 含 


O init_done_: 如 果 为 true， 表 示 ReplSemiSyncSlave 实 例 已 经 初始 化 。 
口 slave_enabled_: 标志 半 同 步 是 否 开启 。 
D mysql_reply: 和 主 库 的 连接 ， 用 于 向 主 库 发 送 响应 。 


下 面 简要 介绍 一 下 ReplSemiSyncSlave 类 中 各 个 成 员 函 数 的 具体 作 上 月 
口 initobject: 用 于 初始 化 ReplSemisyncSlave 实 例 。 
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口 getSlaveEnabled: 获取 半 同 步 开启 状态 。 
口 setSlaveEnabled: 设置 半 同 步 开 启 状态 。 
口 slaveReply: 当 接 收 完 一 个 事务 的 所 有 binlog 事 件 之 后 ， 会 调用 该 函数 向 主 库 发 送 响应 。 


@ slave IO 线程 在 半 同 步 复 制 中 的 额外 工作 
下 面 我 们 看 一 下 从 库 的 slave IO 线程 从 启动 到 退出 ， 在 半 同 步 复制 中 做 了 哪些 额外 的 工作 。 


(1) slave IO 线程 在 发 送 COM_BINLOG_DUMP 命 令 请 求 主 库 发 送 binlog 事 件 之 前 ， 会 询问 主 库 是 否 
支持 半 同 步 复制 ， 如 果 不 支 持 ， 就 算 从 库 支 持 半 同 步 复制 ， 也 会 将 半 同 步 复制 关闭 。 

(2) 如 果 第 (1) 步 中 主 库 给 出 的 答复 是 支持 半 同 步 复 制 ， 接 下 来 从 库 会 发 送 SET Orpl_semi_sync_ 
slave= 1 命令 给 主 库 ， 即 设置 该 用 户 变量 的 值 为 1， 其 含义 是 至 少 有 一 个 从 库 使 用 半 同 步 复制 。 当 
主 库 的 master dump 线 程 发 送 完 一 个 事务 的 所 有 事件 之 后 ， 会 检查 用 户 变量 @rp1_semi_sync_slave 
的 值 ， 来 确定 是 否 需 要 等 待 从 库 响应 。 

(3) 从 库 接 收 完 一 个 事务 的 所 有 binlog 事 件 之 后 ， 会 调用 ReplSemisyncSlave 的 slaveReply 函 数 
向 主 库 发 送 包 含 位 置信 息 的 ACK 确 认 。 


8.6.4” 半 同步 复制 的 变种 


通常 情况 下 , 半 同 步 复 制 是 保证 数据 安全 性 很 好 的 解决 方案 , 然而 在 一 些 特殊 的 场景 或 者 需 
求 下 ,普通 的 半 同 步 复制 不 能 满足 需求 。 本 节 中 , 我 们 将 介绍 为 了 满足 特殊 需求 而 存在 的 两 个 半 
同步 复制 的 变种 。 


1. group-ack 半 同步 复制 


由 于 半 同 步 复 制 需要 等 待 从 库 发 送 响应 , 为 了 减少 半 同 步 复 制 的 额外 开销 , 通常 情况 下 我 们 
会 在 低 延 时 的 网 络 情况 下 使 用 半 同 步 复 制 , 例如 主 库 和 从 库 位 于 同一 个 局 域 网 内 。 但 在 一 些 特殊 
的 情况 下 ， 例 如 为 了 防止 由 于 机 房 断 电 而 导致 的 数据 不 可 访问 ， 我 们 会 做 跨 机 房 容 灾 ， 将 主 库 
和 从 库 放 在 不 同 的 机 房 。 但 通常 不 同 的 机 房 之 间 的 网 络 延 时 要 比 局 域 网 内 的 网 络 延 时 大 得 多 , 一 
般 会 达到 几 毫 秒 甚至 几 十 毫秒 我们 假设 两 个 机 房 之 间 的 网 络 延 时 为 10ms, 不 考虑 其 他 因素 的 影 
响 ， 那 么 主 库 的 吞吐 率 就 可 以 粗略 地 估算 为 1000 / 10 = 100 事 务 数 / 秒 ， 这 对 数据 库 服 务 来 说 是 比 
较 低 的 。 


我 们 知道 ， 在 TCP 传 输 协 议 中 ,接收 方 是 需要 发 送 响应 给 发 送 端 ， 告知 对 方 自 己 已 经 接收 到 
了 数据 包 。 发 送 端 并 不 是 每 发 送 完 一 个 数据 包 就 等 待 接收 端 发 送 响应 ， 这 样 会 使 TCP 传 输 速度 非 
常 慢 。 发 送 端 在 第 一 个 数据 包 还 没有 收 到 响应 的 情况 下 是 可 以 接着 发 送 第 二 个 数据 包 的 ,只 要 未 
收 到 响应 的 数据 包 的 个 数 小 于 滑动 窗口 的 大 小 , 就 可 以 继续 向 接收 端 发 送 数 据 包 。 同时 接收 端 也 
不 是 对 每 个 数据 包 都 进行 响应 , 可 以 对 多 个 数据 包 进 行 一 次 响应 , 例如 接收 端 收 到 了 序列 号 分 别 
为 1、2、3、4 的 4 个 数据 包 ， 那 么 接收 端 可 以 只 发 送 一 个 4 号 包 的 响应 就 可 以 。 
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TCP 数 据 包 的 顺序 性 和 事务 在 binlog 中 的 结束 位 置 的 顺序 性 非常 相似 ， 例 如 事务 A 在 binlog 中 
的 结束 位 置 是 pos1， 事 务 B 在 binlog 中 的 结束 位 置 是 pos2 ， 如 果 pos2 大 于 pos1， 当 主 库 接收 到 从 库 
发 来 的 对 pos2 的 响应 时 , 也 就 是 说 从 库 接收 到 了 事务 B 的 所 有 事件 , 那么 位 于 事务 B 之 前 的 事务 A 
的 所 有 事件 ， 从 库 肯定 也 接收 完了 。 可 以 利用 这 种 性 质 来 对 跨 机 房 的 半 同 步 复 制 进行 优化 。 并 不 
是 每 发 送 完 一 个 事务 之 后 都 去 等 待 从 库 的 响应 , 而 是 发 送 完 一 批 事务 之 后 再 等 待 一 个 响应 。 这样 
可 以 将 一 次 等 待 响 应 的 时 间 开 销 平 挫 到 多 个 事务 上 , 减少 了 单个 事务 在 等 待 从 库 响 应 上 所 花 的 时 
间 。 例 如 ， 发 送 10 个 事务 之 后 master dump 线 程 进 入 等 待 从 库 的 响应 包 ， 假设 主 库 和 从 库 的 延 时 
为 10ms， 不 考虑 其 他 因素 的 影响 ， 那 么 主 库 的 吞吐 率 可 以 粗略 地 估算 为 1000/110 x 10 = 1000 事 
务 数 / 秒 。 相 比 于 之 前 ， 这 种 方案 可 以 显著 提高 数据 库 的 吞吐 率 。 


当然 , group-ack 半 同步 复制 在 真正 的 实践 中 需要 考虑 的 问题 还 有 很 多 , 例如 当 数 据 库 系 统 空 
闲 的 时 候 ， 一 个 group 应 该 设置 为 多 大 。 如 果 设 置 得 太 大 ， 将 会 导致 收集 一 个 group 的 事务 要 花费 
很 长 的 时 间 , 这 会 导致 长 时 间 不 能 返回 给 客户 端 。group-ack 只 有 在 大 量 并 发 事务 的 时 候 才 能 很 好 
地 发 挥 作用 。 


2. wait N-ack 半 同步 复制 


通常 的 半 同 步 复 制 是 只 要 有 一 个 从 库 返 回 了 响应 , 主 库 就 可 以 返回 给 客户 端 。 当 主 库 返 回 给 
客户 端 时 ,如 果 主 库 和 刚刚 返回 响应 的 那个 从 库 一 起 宕 机 ， 这 时 会 发 生 主 从 切换 ,从 其 他 的 从 库 
中 选举 一 个 从 库 作 为 主 库 , 在 新 的 主 从 复制 结构 中 ,客户 端 刚刚 提交 的 那 条 事务 是 不 存在 的 ， 客 
户 端 是 不 能 访问 刚刚 提交 的 数据 的 。 但 这 种 情况 出 现 的 可 能 性 非常 低 , 通常 情况 下 是 不 需要 考虑 
的 ， 但 对 于 一 些 安全 级 别 要 求 非常 高 的 商业 系统 ， 确 实 需要 考虑 这 种 情况 。 


wait N-ack 半 同步 复制 的 思路 如 下 : 不 是 只 要 一 个 从 库 返 回响 应 就 返回 给 客户 端 , 而 是 等 待 N 
CN > 1) 个 从 库 返 回响 应 之 后 才 返 回 给 客户 端 。 当 然 ， 如 果 N 越 大 ， 系 统 的 否 吐 率 就 越 低 ， 但 安 
全 性 也 越 高 ， 当 和 为 从 库 的 个 数 时 ， 安 全 性 最 高 ， 系 统 的 否 吐 率 也 是 最 低 的 ， 因 为 要 等 待 所 有 的 
从 库 返 回响 应 包 才能 返回 给 客户 端 。 
8.6.5” 半 同步 复制 的 潜在 问题 

半 同 步 复 制 是 为 了 解决 在 异步 复制 中 , 当 从 库 落 后 主 库 时 , 主 库 宕 机 会 发 生 茶 些 数 据 不 可 访 
问 的 问题 。 但 半 同 步 复 制 也 存在 一 些 潜在 的 问题 。 

首先 , 不 考虑 其 他 因素 的 影响 , 半 同 步 复 制 相 对 于 异步 复制 系统 的 吞吐 率 会 有 所 降低 。 当然， 
在 网 络 状况 很 好 的 情况 下 ,网 络 延 时 不 是 系统 瓶 宽 的 情况 下 , 半 同 步 复 制 可 以 达到 和 异步 复制 相 
同 的 吞吐 率 , 但 当 网 络 状况 不 是 很 好 时 ,可 能 会 成 为 系统 的 瓶颈 ,所 以 我 们 推荐 在 网 络 状况 好 的 
情况 下 使 用 半 同 步 复制 ， 当 然 特殊 场景 或 需求 下 除外 。 


其 次 ， 由 于 半 同 步 复 制 在 将 事务 提交 到 存储 引 敬 和 binlog 之 后 需要 等 待 从 库 响应 ， 如 果 主 库 
在 等 待 的 时 候 宕 机 了 , 这 时 这 些 事务 还 没 来 得 及 发 送 到 从 库 上 , 客户 端 会 收 到 事务 提交 失败 的 信 
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息 ,客户 端 会 重新 提交 该 事务 到 新 选举 的 主 库 上 ， 当 宕 机 的 主 库 重新 启动 ， 以 从 库 的 身份 重新 加 
入 到 该 主 从 复制 结构 中 时 会 发 现 , 该 事务 在 这 个 主 从 结构 中 被 提交 了 两 次 ,一 次 在 之 前 的 主 库 上 ， 
一 次 在 新 选举 的 主 库 上 。 


当主 库 在 从 库 发 送 完 响 应 包 但 是 没有 收 到 响应 包 这 个 期 间 宕 机 时 , 客户 端 会 返回 提交 事务 失 
败 , 但 从 库 已 经 获取 了 该 事务 , 这 样 客户 端 会 重新 提交 这 些 事务 到 新 选举 的 主 库 上 ， 而 此 时 该 事 
务 在 这 个 主 从 复制 结构 中 已 经 存在 了 。 


虽然 半 同 步 复 制 存在 以 上 提 到 的 这 些 问题 ， 但 这 些 问 题 可 以 通过 其 他 途径 或 者 方案 来 避免 。 
在 通常 情况 下 ， 半 同步 复制 仍然 是 保证 数据 安全 性 的 一 种 非常 好 的 解决 方案 。 


8.7 ”并 行 复制 


在 开启 复制 的 情况 下 ， 从 库 的 slave IO 线程 负责 接收 主 库 的 binlog 事 件 ， 然 后 将 其 写 人 到 
relay-log 中 ， 而 slave SQL 线程 负责 重 放 relay-log 中 的 事件 ， 这 个 过 程 在 前 面 已 经 详细 介绍 过 了 。 
在 使 用 复制 的 过 程 中 ,我 们 有 时 会 发 现 从 库 的 slave IO 线程 已 经 获取 了 主 库 的 所 有 binlog 事 件 ， 然 
而 slave SQL 线程 重 放 的 进度 却 跟 不 上 slave IO 线 程 拉 取 binlog 事 件 的 进度 , 导致 从 库 落后 主 库 , 在 
主 库 上 可 以 查询 到 的 数据 在 从 库 上 却 查询 不 到 。 这 可 能 有 多 种 原因 。 例 如 ， 主 库 和 从 库 的 机 器 资 
源 不 对 称 ， 从 库 机 器 的 性 能 没有 主 库 的 好 , 在 业务 峰值 的 时 候 主 库 可 以 应 对 峰值 的 压力 ， 而 从 库 
的 性 能 到 了 一 个 瓶颈 ， 导 致 重 放 的 速度 跟 不 上 主 库 的 更 新 。 当 然 ,， 通常 情况 下 我 们 应 该 避免 发 生 
这 种 情况 ， 主 库 和 从 库 最 好 使 用 性 能 对 称 的 机 器 ， 这 样 当 主 库 宕 机 之 后 ,发 生 主 从 切换 ， 从 库 也 
能 应 对 业务 峰值 时 的 压力 。 从 库 落后 还 有 一 个 可 能 的 原因 ， 那 就 是 主 库 进行 高 并 发 的 写 入 ,而 从 
库 是 通过 slave SQL 单 线程 进行 重 放 的 ， 也 就 是 说 在 从 库 上 同一 时 刻 只 有 一 个 事件 被 重 放 ， 没 有 充 
分 利用 系统 资源 ， 跟 不 上 主 库 的 步伐 。 如 果 是 由 于 这 种 原因 而 造成 的 从 库 落 后 ， 那 么 
MySQL/MariaDB 的 并 行 复 制 功能 就 可 以 很 好 地 发 挥 作 用 了 。 


8.7.1 ”MySQL 的 并 行 复制 


MySQL 在 5.6.3 版 本 中 引入 了 并 行 复制 功能 ， 人 允许 多 个 线程 并 发 重 放 接 收 到 的 binlog 事 件 。 用 
户 可 以 通过 设置 参数 slave_parallel_workers 来 指定 从 库 参 与 重 放 工 作 的 线程 的 个 数 ， 默 认 情 况 
下 该 参数 的 值 为 0， 表 明 只 有 一 个 slave SQL 线程 负责 重 放 ， 如 果 该 参数 不 为 0， 从 库 除 了 会 开启 
一 个 slave SQL 线程 外 ， 还 会 额外 开启 参数 指定 数量 的 工作 线程 ，slave SQL 线程 不 直接 参与 重 放 ， 
而 是 作为 所 有 工作 线程 的 协调 器 ， 负 责 将 事件 分 发 给 工作 线程 ， 由 工作 线程 负责 重 放 。 


8.7.2 MariaDB 的 并 行 复 制 


MariaDB 在 10.0.5 中 引入 了 并 行 复制 的 功能 ， 允 许 从 库 的 多 个 线程 同时 进行 重 放 工作 。 你 可 
以 通过 在 配置 文件 中 设置 参数 slave_parallel threads=n 来 指定 MariaDB 创 建 多 少 个 worker 线 程 
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来 进行 事件 的 重 放 工 作 。 如 果 n 为 0， 表 示 采 用 传统 的 复制 


模式 一 一 单个 slave SQL 线 程 负 责 所 有 


的 重 放 工 作 ; 如 果 n 大 于 0， 将 会 创建 一 个 包含 个 worker 线 程 的 线程 池 进 行 重 放 工 作 。 


8.8 多 源 复制 


MySQL 能 够 轻松 支持 一 主 多 从 的 复制 结构 ， 但 是 想 将 多 个 实例 的 数据 复制 到 一 个 实例 上 还 
是 比较 难 的 , 当然 可 以 通过 多 级 复制 来 达到 目的 , 但 这 种 方式 不 是 很 优雅 , 而 且 存在 一 定 的 问题 ， 
例如 导致 网 络 流量 的 增加 以 及 产生 元 余 的 binlog, 等 等 。MariaDB 很 好 地 解决 了 这 个 问题 。 从 10.0 
开始 ，MariaDB 引 入 了 多 源 复制 的 机 制 ， 允 许 一 个 从 库 可 以 指定 多 个 主 库 作为 数据 源 。 多 源 复 制 
允许 将 多 个 实例 的 数据 进行 聚合 作为 备份 或 者 进行 分 析 ， 如 图 8-5 所 示 。 


MÆ 


8.8.1 多 源 复 制 的 应 用 场景 
多 源 复制 的 通常 应 用 场景 包括 如 下 几 种 。 


分 析 等 工作 。 


当然 ,如果 你 想 使 用 多 源 复 
的 一 些 问 题 。 


这 个 数 ， 应 该 考虑 下 自己 


出 ,必须 了 解 它 的 一 些 限 


的 设计 是 否 合理 。 


口 每 增加 一 个 主 库 ， 在 从 库 上 都 会 创建 两 个 线程 (slave IO 和 slave SQL 线程 )， 也 就 是 如 果 


主 库 1 主 库 2 


图 8-5 MariaDB 多 源 复制 


O 由 于 某 些 原因 ， 数 据 被 分 片 到 多 个 数据 库 实 例 上 ， 你 想 把 这 些 数据 聚集 到 一 块 进行 数据 


口 你 有 多 个 数据 库 实 例 ， 想 把 这 些 实例 的 数据 使 用 一 台 机 器 进行 备份 。 


判 。 下 面 列 出 了 使 用 多 源 复 制 需要 注意 


口 一 个 从 库 最 多 能 有 64 个 主 库 。 通 常情 况 下 ，64 个 主 库 已 经 足够 多 了 ， 如 果 你 的 需求 多 于 


你 的 从 库 有 NN 个 主 库 ， 在 多 源 复制 开启 的 时 候 该 从 库 上 将 会 存在 2N 个 slave 线 程 。 
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口 每 个 主 库 必须 配置 不 同 的 server_id。 如 果 不 这 样 做 ， 当 你 想 从 从 库 把 数据 复制 回 主 库 时 
会 出 现 问题 。 

O 建议 不 要 开启 innodb-recovery-update-Telay-1og 选 项 ， 该 选项 对 于 InnoDB 之 外 的 存储 引 
擎 是 不 安全 的 。 

口 目前 版 本 (10.0.6) 的 MariaDB 的 多 源 复 制 会 使 半 同 步 复制 失效 ，MariaDB 将 来 的 版 本 会 
修复 这 个 问题 。 


88.2 ”多 源 复 制 相关 的 命令 


为 了 支持 多 源 复制 ，MariaDB 对 复制 中 使 用 的 一 些 命令 做 了 语法 扩展 ， 同 时 引入 了 一 些 新 的 
命令 ， 下 面 我 们 一 一 介绍 这 些 修改 。 


口 CHANGE MASTER ["connection-name"] TO ...: 为 了 在 多 个 主 库 之 间 做 区 分 ，MariaDB 人 允许 在 
CHANGE MASTER TO 命令 执行 时 为 从 库 到 主 库 之 间 的 连接 进行 命名 ， 连 接 名 的 长 度 不 能 大 于 64 
个 字符 。 在 8.8.3 节 中 ， 我 们 将 会 对 该 名 称 在 MariaDB 内 部 是 如 何 起 作用 的 做 进一步 的 介绍 。 

口 RESET SLAVE ["connection-name"]: 类 似 于 MySQL 的 RESET SLAVE 命 令 ， 但 是 它 可 以 通过 

指定 连接 名 来 重 置 指定 主 库 的 信息 。 

O SHOW RELAYLOG ["connection-name"] EVENTS: 查看 指定 主 库 生 成 的 relay-log 的 事件 。 在 使 
用 MariaDB 的 多 源 复制 时 ， 如 果 从 库 需 要 复制 N 个 主 库 的 数据 ， 那 么 在 从 库 上 就 会 开启 入 
对 slave IO 和 slave SQL 线 程 对 ， 同 时 会 生成 N 个 relay-log。SHOW RELAYLOG EVENTS 命 令 支 持 

查看 指定 主 库 生成 的 relay-log。 

口 SHOW SLAVE ["connection-name"] STATUS: 扩展 了 了 MySQL 的 SHOW SLAVE STATUS 命令 ， 可 

以 查看 指定 主 库 的 复制 情况 。 

口 SHOW ALL SLAVE STATUS: MariaDB 针 对 多 源 复制 新 增 的 命令 ,使 用 该 命令 可 以 查看 所 有 主 

库 的 复制 情况 。 

口 START SLAVE ["connection-name"]: 启动 指定 主 库 的 复制 。 

口 START ALL SLAVE: MariaDB 新 增 的 命令 。 启动 所 有 主 库 的 复制 工作 , 该 命令 会 开启 N 对 slave 

IO 和 slave SQL 线 程 对 来 进行 复制 ，N 为 主 库 的 个 数 。 

口 STOP SLAVE ["connection-name"]: 停止 指定 主 库 的 复制 工作 。 

口 STOP ALL SLAVE: MariaDB 新 增 的 命令 ， 用 于 停止 所 有 的 复制 工作 。 

口 default_master_connection 选 项 ; 通过 上 面 的 介绍 ,我们 看 到 ，MariaDB 通 过 连接 名 来 区 
分 不 同 的 主 库 ， 许 多 复制 相关 的 命令 支持 指定 连接 名 来 指定 作用 的 主 库 。 当 我 们 在 这 些 
命令 中 不 指定 连接 名 时 ， 会 发 生 什 么 呢 ? MariaDB 引 入 了 default_master_connection 选 
项 , 你 可 以 在 配置 文件 中 或 者 在 启动 MariaDB 的 时 候 在 命令 行 中 指定 该 选项 的 值 , 那么 如 
果 你 在 执行 复制 命令 时 没有 指定 连接 名 ,系统 默认 会 使 用 default_master_connection 人 参数 
的 值 。default_master_connection 的 默认 值 是 空 字 符 串 。 
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8.8.3 MariaDB 多 源 复 制 的 实现 


前 面 介绍 MySQL 的 复制 实现 时 ， 我 们 介绍 了 几 个 类 的 定义 及 其 在 复制 中 的 作用 ，MariaDB 


的 多 源 复 制 大 体 上 和 普通 的 复制 是 相同 的 , 所 以 本 节 中 我 们 并 不 打算 把 MariaDB 多 源 复 


所 有 内 容 都 列举 出 来 ， 而 是 列举 与 MySQL 复 制 有 所 区 别 的 地 方 。 


先 来 看 一 下 用 于 保存 主 库 信息 的 Master_info 类 ,该 类 和 MySQL 相 对 应 的 Master_info 类 几乎 
一 致 ， 除 了 多 了 一 个 connection_name 成 员 和 一 个 cmp_connnection_name 成 员 。 这 两 个 成 员 用 于 存 
储 多 源 复制 中 的 连接 名 ， 其 中 前 者 存储 了 原始 的 连接 名 ， 后 者 存储 了 连接 名 的 小 写 , 用 于 比较 和 


查找 操作 。Master_info 类 的 代码 如 下 : 
// sqlrpl_ master.h 


class Master_info 


{ 


LEX_STRING connection_name; 
LEX_STRING cmp_connection_name; 


J; 


// 连接 的 名 称 
// 小 写 ， 用 于 查询 和 比较 


所 相关 的 


在 MySQL 中 ，Master_info 类 全 局 只 有 一 个 实例 ( 全 局 变量 active_mi )， 因 为 MySQL 只 允许 
有 一 个 主 库 ， 而 MariaDB 人 允许 有 多 个 主 库 , 那么 相应 地 就 会 存在 Master_info 的 多 个 实例 ,既然 有 
多 个 Master_info 的 实例 ， 那 么 就 需要 对 这 些 实例 进行 管理 ， 类 Master_info_index 就 是 为 了 管理 
这 些 实例 而 存在 的 。 下 面 我 们 给 出 该 类 的 定义 : 


// sql/rpl_master.h 


class Master info index 
{ 
private: 
IO CACHE index file; 
char index file name[FN REFLEN]; 


public: 
Master info index(); 
~Master info index(); 


HASH master_info_hash; 


bool init_all_master_info(); 


bool write master name to index file(LEX STRING *connection_name,bool do sync); 


// 对 应 于 multi-master.info 文 件 


// 管理 所 有 Master_info 的 实例 


// 读 取 所 有 master.info 文 件 ， 初 始 化 多 源 复制 


bool check duplicate master info(LEX STRING *connection name, const char *host, uint port); 
bool add master info(Master info *mi, bool write to file); 
bool remove master info(LEX STRING *connection name); 


8.9 GTID 185 


// 通过 连接 的 名 字 来 找到 Master_info 的 实例 
Master info *get_master_info(LEX_STRING *connection_name, 
Sql_condition: :enum_warning level warning); 


bool start_all_slaves(THD *thd); 
bool stop all slaves(THD *thd); 


}; 
接 下 来 ,我们 给 出 类 Master_info_index 中 各 个 成 员 的 含义 。 


口 index_file: 读 写 multi_master.info 文 件 的 缓存 。 

口 index_file_name: 在 MySQL 的 复制 中 , 本 地 会 生成 一 个 master.info 文 件 用 于 保存 连接 主 库 
的 信息 以 及 slave IO 线程 接收 主 库 binlog 事 件 的 进度 情况 ; 生成 一 个 relay log.info 文 件 存储 
slave SQL 线程 重 放 工作 的 进度 。 在 MariaDB 的 多 源 复制 中 ， 由 于 存在 多 个 主 库 ， 针 对 每 
个 主 库 都 会 生成 一 个 单独 的 master.info 文 件 ， 文 件 名 为 master-connection_name.info， 其 中 
connection_name 为 到 主 库 的 连接 名 。 同 时 ，MariaDB 还 生成 了 一 个 multi-master.info 文 件 用 
于 存储 所 有 的 连接 名 。 成 员 index_file_name 里 保存 的 是 multi-master.info 文 件 的 文件 名 。 

口 master_info_hash: 这 是 一 个 哈 希 表 , 用 于 管理 所 有 的 Master_info 实 例 , 可 以 根据 连接 名 

来 快速 查询 对 应 的 Master_info 实 例 。 


下 面 列 出 了 类 Master_info_index 中 各 个 成 员 函 数 的 含义 。 


口 init all master info: 当 MariaDB 启 动 的 时 候 ， 会 调用 init_all master_info 子 数 来 从 
multi-masterinfo 文 件 读 取 所 有 的 连接 名 ， 然 后 对 所 有 主 库 进 行 初始 化 。 

O write_master_name_to_index_file: 将 连接 名 写 入 到 multi-master.info 文 件 。 

口 check_duplicate master_info: 在 使 用 CHANGE MASTER TO 命令 时 ,会 调用 该 函数 来 检查 该 
主 库 是 否 已 经 存在 。 

O add_master info: 添加 Master_info 实 例 到 master_info_hash。 

口 remove_master_info: 从 master_info_hash 中 删除 Master_info 实 例 。 

口 get_master_info: 通过 连接 名 从 master_info_hash 中 获取 对 应 的 Master_info 实 例 。 

口 start all slaves: 该 函数 用 于 启动 所 有 没有 启动 的 复制 线程 ， 在 执行 START ALL SLAVES 
命令 时 被 调用 。 

口 stop_all_slaves: 该 子 数 用 于 停止 所 有 的 复制 线程 , 在 执行 STOP ALL SLAVES 命 令 时 被 调用 。 
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GTID 是 Global Transaction Identifiers 的 缩写 , 表示 全 局 事务 id, 其 主要 目的 是 为 了 简化 复制 。 
MySQL 在 5.6.5 中 引入 了 这 个 概念 ，MariaDB 从 10.0.2 开 始 将 这 个 概念 引进 来 ， 支 持 基 于 GTID 的 
复制 。 
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本 节 中 , 我 们 首先 介绍 GTID 的 概念 , 然后 介绍 GTID 在 MySQL 中 是 如 何 配置 的 及 其 在 MySQL 
中 的 实现 ,最 后 对 比 下 MariaDB 中 的 GTID 与 MySQL 中 的 不 同 之 处 ， 让 读者 对 GTID 有 个 全 面 深刻 
的 了 解 。 


8.9.1 ”GTID 的 概念 


前 面 我 们 介绍 过 ， 在 复制 的 过 程 中 ， 从 库 通过 记录 主 库 的 binlog 文 件 名 和 偏 移 量 来 记录 接收 
主 库 binlog 事 件 的 工作 进度 ， 下 次 开启 复制 的 时 候 通 过 告知 主 库 这 些 信息 ， 让 主 库 能 够 从 正确 的 
位 置 开始 发 送 binlog 事 件 给 从 库 。 基 于 GTID 的 复制 不 需要 这 些 信息 ， 在 执行 CHANGE MASTER TOMY 
令 时 , 也 不 需要 指定 MASTER_LOG FILEAIMASTER LOG POS 参数 , 只 需要 指定 MASTER_AUTO_POSITION=1 
就 可 以 了 , 主 库 会 根据 从 库 发 送 过 来 的 GTID 集 合 信息 来 决定 从 何 处 开始 发 送 binlog 事 件 给 从 库 以 
及 发 送 哪些 binlog 事 件 给 从 库 ， 这 大 大 简化 了 数据 库 管理 员 在 复制 中 的 工作 。 


先 来 看 一 下 GTID 的 概念 。GTID 是 在 数据 库 提交 事务 时 创建 的 唯一 标识 符 ， 该 标识 与 事务 
是 一 一 对 应 的 关系 。 我 们 需要 注意 的 是 ， 它 不 仅 在 生成 它 的 数据 库 上 是 唯一 的 ， 在 一 个 主 从 复 
制 结构 内 也 是 唯一 的 , 这 样 才能 唯一 标识 一 个 主 从 复制 结构 中 的 一 条 事务 。 GTID 由 两 部 分 组 成 ， 
如 下 所 示 : 


GTID = source_id:transaction_ id 


source_id 用 于 标识 这 个 事务 是 在 哪个 数据 库 实例 上 产生 的 。 在 MySQL 中 ， 我 们 使 用 uuid 作 
为 source id，uuid 是 由 32 个 字符 (0-9, a-f) 以 及 4 个 -组 成 的 字符 串 。transaction id 是 一 个 序 
列 号 ， 取 决 于 该 事务 在 数据 库 上 提交 的 顺序 ， 该 序列 号 从 1 开始 。 例 如 下 面 的 GTID 代 表 在 
server_uuid 为 a194c9c6-566f-11e3-b67e-74867a2edb63 的 数据 库 实例 上 提交 的 第 6 个 事务 : 


a194c9c6-566f-11e3-b67e-74867a2edb63:6 


接 下 来 ,我 们 介绍 下 GTID 集 合 的 概念 。 顾 名 思 义 ，GTID 集 合 就 是 由 多 个 GTID 组 成 的 集合 ， 
一 个 GTID 与 一 条 事务 相对 应 ,一 下 GTID 集 合 对 应 于 一 个 事务 集合 .下 面 我 们 来 看 一 个 GTID 集 合 : 


a194c9c6-566f-11e3-b67e-74867a2edb63:1-6 


这 个 集合 表示 在 server_uuid 为 a194c9c6-566f-11e3-b67e-74867a2edb63 的 数据 库 实 例 上 产生 的 事 
务 号 为 !、2、3、4、5、6 的 6 个 事务 。 当 然 ， 上 面 的 GTID 集 合 是 最 简单 的 情况 。GTID 集 合 还 能 
表示 多 个 数据 库 实例 上 的 事务 集合 ， 不 同 数据 库 实例 之 间 用 (, ) 隔 开 ， 同 一 数据 库 实例 上 的 多 
个 区 间 以 冒号 C) BaF, Bian: 


a194c9c6-566f-11e3-b67e-74867a2edb63:1-6:8-23,0652420f-58bf-11e3-858f-74867a2edb63:1-8:17-25 


8.9.2 ”在 MySQL 上 配置 基于 GTID 的 复制 
下 面 我 们 介绍 一 下 在 MySQL 中 如 何 开启 基于 GTID 的 复制 ， 主 要 的 配置 过 程 分 为 以 下 几 步 。 
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(1) 同步 主 库 和 从 库 的 数据 。 

(2) 停止 主 库 和 从 库 。 

(3) 以 --gtid_mode=on --log-bin --log-slave-updates - -enforce-gtid-consistency 模 式 启 动 主 库 和 从 库 
在 从 库 上 需要 添加 --skip-slave-start 选 项 ， 暂 时 不 开启 复制 。 

(4) 在 从 库 上 执行 CHANGE MASTER TO ... MASTER AUTO POSITION = 1， 使 用 基于 GTID 的 自动 位 置 
功能 替代 MASTER_L0G_FILE 和 MASTER_L0G_P0S 人 参数 。 

(5) 在 从 库 上 执行 START SLAVE 命 令 开启 复制 。 

在 gtid_mode=on 的 模式 下 ,， MySQL 会 在 事务 提交 的 时 候 生 成 一 个 GTID, 然后 在 binlog 中 针对 
该 事务 额外 记录 一 个 Gtid 事 件 : 


mysql> show binlog events in "mysql-bin.000043"; 


+------------- +------ +--------------- +------------ +------------- +-------------- + 

| Log_name | Pos | Event_type | Server_id | End_log pos | Info | 

+------------- +------ +--------------- +------------ +------------- +-------------- + 

| mysql-bin.000043| 4 | Format_desc | 1 | 120 | Server ver: 5.6.14 
-debug-log, Binlog ver: 4 | 

| mysql-bin.000015| 120 | Previous _gtids | 2 | 234 | 0652420f-58bf-11e3-858f- 


74867a2edb63:1-2, 
a194c9c6-566f-11e3-b67e- 
74867a2edb63:1-10 | 
SET @@SESSION.GTID_NEXT= 
"a194c9c6-566f-11e3-b67e- 
74867a2edb63:11' | 


| mysql-bin.000043| 191 | Gtid | 1 | 239 


从 上 面 的 输出 可 以 看 到 ， 在 GTID 开 启 的 模式 下 ，binlog 会 额外 记录 两 种 事件 ， 这 两 种 事情 分 
1 是 Previous_gtids 事 件 和 Gtid 事 件 。 在 事务 开始 之 前 ， 会 记录 一 个 Gtid 事 件 与 该 事务 相对 应 ; 
事件 Previous_gtids 记 录 了 该 binlog 文 件 之 前 执行 过 的 所 有 事务 对 应 的 GTID 集 合 ,在 系统 启动 时 ， 
MySQL 读 取 该 事件 的 内 容 来 进行 相应 的 初始 化 工作 。 


在 下 一 节 中 ,我 们 会 再 次 分 析 这 两 个 binlog 事 件 。 


= 


lin] 


8.9.3 MySQL 中 GTID 的 实现 


介绍 完了 GTID 、GTID 集 合 的 概念 以 及 表示 方法 ， 下 面 我 们 从 源 代 码 的 角度 来 分 析 GTID 在 
MySQL 内 部 是 如 何 实现 的 以 及 在 复制 过 程 中 GTID 是 如 何 工作 的 。 


1. 相关 的 数据 结构 
首先 ， 我 们 介绍 几 个 实现 GTID 的 核心 数据 结构 。 


@ 类 Sid map 


在 MySQL 中 ， 我 们 使 用 uuid 作 为 GTID 中 的 source id (第 一 部 分 )。 但 在 MySQL 内 部 ， 为 了 
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减少 占用 的 空间 以 及 方便 计算 ， 需 要 使 用 source_id 的 地 方 不 是 直接 使 用 uuid 的 ， 而 是 使 用 一 个 


int32 的 整数 (sidno ) 来 替代 。 既 然 使 用 整数 来 蔡 


代 uuid， 那 么 就 需 保存 整数 与 uuid 之 间 的 相互 


映射 关系 ， 以 便 在 命令 SHOW MASTER STATUS 或 者 SHOW SLAVE STAUTS 的 输出 中 显示 uuid 而 不 是 看 不 
懂 的 整数 值 , 而 类 sid_map 就 是 用 来 保存 这 种 映射 关系 的 MySQL 内 部 使 用 一 个 64 位 的 整数 ( gno ) 
来 作为 GTID 的 transaction id 部 分 (第 二 部 分 )。 类 Sid_map 的 定义 如 下 : 


// sql/rpl gtid.h 

typedef Uuid rpl sid; 
typedef int32 rpl_sidno; 
typedef int64 rpl_gno; 


struct Gtid 


// 使 用 uuid 作 为 GTID 的 source_ id 
// GTID 的 第 一 部 分 
// GTID 的 第 二 部 分 


{ 
rpl sidno sidno; 
rpl gno gno; 
ses // 省 略 一 些 函 数 

B 

class Sid_map 

{ 

private: 
HASH _sid_to_sidno; // rpl_sid 到 rpl_sidno 的 映射 
DYNAMIC ARRAY _sidno_to_sid; // rpl_sidno 到 rpl_sid 的 映射 
mutable Checkable rwlock *sid lock; // 读 写 锁 保 护 

public: 
rpl_sidno add_sid(const rpl sid &sid); // 添加 sid 
rpl_sidno sid to sidno(const rpl sid &sid) const; // 获取 rpl_sid 到 rpl_sidno 的 映射 
const rpl sid &sidno to sid(rpl sidno sidno) const;  // 获取 rpl sidno 到 rpl_sid 的 映射 
rpl_sidno get max sidno() const; // 获取 当前 最 大 的 rpl_sidno 

B 


类 Gtid 代 表 一 个 GTID ， 主 要 的 成 员 为 sidno 和 gno ， 分 别 代 表 GTID 的 source id 部 分 和 


transaction id 部 分 。 


类 Sid_map 存 储 了 uuid 字 符 串 与 整数 sidno 之 间 的 相互 映射 关系 ， 下 面 我 们 给 出 该 类 中 各 个 成 


员 的 含义 。 


Q sid_to_sidno: 采用 哈 希 表 存 储 uuid 字 符 虽 


到 整数 sidno 的 映射 关系 。 


Q sidno_to sid: 这 个 数组 存储 的 是 整数 sidno 到 uuid 字 符 串 的 映射 关系 。 由 于 sidno 是 从 1 


开始 自 增 的 ， 所 以 将 sidno 等 于 n 对 应 的 uuid 存 储 在 数组 下 标 为 n-1 的 位 置 。 当 需要 获取 
sidno 为 n 对 应 的 uuid 时 ， 直 接 取 数组 下 标 为 n-1 的 元 素 就 可 以 了 ， 这 样 就 实现 了 从 


rpl_sidno 到 uuid 的 映射 。 
口 sid_lock: 读 写 保护 锁 。 
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下 面 我 们 给 出 该 类 中 各 个 成 员 函 数 的 含义 。 


口 add_sid: 添加 uuid 字 符 串 到 sid_map 中 。 

O sid to sidno: 根据 uuid 字 符 串 查 询 对 应 的 整数 sidno。 

O rpl sid &sidno to sid: 根据 整数 sidno 查 询 对 应 的 uuid 字 符 串 。 
口 get_max_sidno: 获取 最 大 的 sidno。 


@ 类 Gtid set 


该 类 是 GTID 集 合 在 MySQL 中 的 实现 ， 下 面 我 们 给 出 该 类 的 定义 ， 其 中 省 略 了 一 些 成 员 和 成 
员 函 数 ， 仪 仅 将 比较 核心 的 成 员 和 成 员 函 数列 举 出 来 : 


// sql/rpl gtid.h 


class Gtid set 


{ 
public: 
struct Interval // 代 表 一 个 区 间 
{ 
rpl gno start; // start 和 end 表 示 了 前 闭 后 开 的 区 间 [start,end) 
rpl_gno end; 
bool equals(const Interval &other) const // 判断 区 间 是 否 相 等 
{ return start == other.start && end == other.end; } 
Interval *next; // 指向 下 一 个 区 间 
}; 
private: 
struct Interval_chunk // 预 分 配 和 批量 分 配 Interval 对 象 
{ 
Interval chunk *next; 
Interval intervals[1]; 
J; 
Sid_map *sid_map; // sidno 和 sid 的 映射 关系 
DYNAMIC_ARRAY intervals; // 存储 所 有 GTID 
Interval *free_intervals; // 空闲 的 Interval 对 象 ， 可 以 重复 利用 
Interval_chunk *chunks; // 用 于 管理 批量 分 配 的 Interval 对 象 
mutable Checkable rwlock *sid_ lock; // 读 写 保护 锁 
public: 


void clear(); 


// 添加 /删除 GTID 
enum_return_status _add_gtid(rpl_sidno sidno, rpl_gno gno); 


= 
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enum_return_status _remove_gtid(rpl_sidno sidno, rpl_gno gno); 


// 添加 /删除 GTID 集 合 
enum_return_status add gtid set(const Gtid set *other); 
enum_return_status remove gtid set(const Gtid set *other); 


// 判断 是 否 包 含 某 个 GTID 
bool contains_gtid(rpl_sidno sidno, rpl_gno gno) const; 


// 判断 是 否 是 某 个 GTID 集 合 的 子 集 
bool is subset(const Gtid set *super) const; 


// 判断 两 个 集合 是 否 有 交集 

bool is_intersection_nonempty(const Gtid set *other) const; 

// 求 两 个 集合 的 交集 

enum return status intersection(const Gtid set *other, Gtid set *result); 


static bool is valid(const char *text); // 判断 字符 串 是 否 是 一 个 合法 的 GTID 集 合 表 示 
char *to_string() const; // 以 字符 串 的 形式 表示 GTID 集 合 


Sid map *get sid map() const { return sid_map; } 


}; 
图 8-6 给 出 了 Gtid_set 类 的 大 概 结构 。 


| | 
[interval] 16 | 
Interval 


图 8-6 ”Gtid_set 类 的 结构 示意 图 


结构 体 Interval 代 表 一 个 前 闭 后 开 的 整数 区 间 , 其 成 员 start 和 end 用 于 指明 这 个 区 间 的 范围 ， 
成 员 next 用 于 实现 Interval 链 表 。 


Interval_chunk 结 构 主 要 用 于 预 分 配 和 批量 分 配 Interval 对 象 。 
接 下 来 ,我们 给 出 类 Gtid_set 中 各 个 成 员 的 含义 以 及 各 个 成 员 函 数 的 作用 。 


口 sid_map: 存储 的 是 sidno 与 sid 的 相互 映射 关系 。 

O intervals: 类 Gtid set 的 核心 成 员 ， 是 一 个 GTID 集 合 。 数 组 中 的 每 个 元 素 指 向 一 个 
Interval 链 表 , 一 个 Interval 链 表 代 表 了 一 个 数据 库 实 例 上 的 所 有 GTID, 所 有 的 Interval 
链表 组 成 了 整个 GTID 集 合 ， 如 图 8-6 所 示 。 
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O free intervals: 用 于 管理 所 有 空闲 的 Interval 对 象 。 当 需要 获取 Interval 对 象 时 ， 直 接 
从 free_intervals 里 获取 ; 当 删 除 Interval 对 和 象 时 , 并 不 是 直接 删除 而 是 加 入 free_intervals 
中 ， 下 次 可 以 重复 利用 。 

口 chunks: 结构 体 Interval_chunk 的 作用 是 预 分 配 和 批量 分 配 Interval 对 象 。 当 Gtid_set 初 
始 化 时 ， 会 分 配 一 个 Interval_chunk 对 象 ， 用 于 分 配 指定 个 数 的 Interval 对 象 ， 然 后 将 这 
些 Interval 对 象 全 部 放 和 人 free_intervals 中 ， 用 于 后 续 使 用 。 例 如 ， 下 面 的 语句 是 在 初始 
化 的 时 候 预 分 配 8 个 Interval 对 象 ( 代码 中 8 减 去 1 的 原因 是 结构 体 Interval_chunk 的 最 后 
一 个 成 员 包 含 一 个 Interval 对 象 ): 


Interval chunk *chunks = (Interval chunk*) malloc (sizeof(Interval chunk) + (8-1) * sizeof(Interval)); 


成 员 chunks 管 理 所 有 已 分 配 的 Interval_chunk 对 象 ， 在 Gtid_set 初 始 化 的 时 候 会 通过 分 配 
个 Interval_chunk 对 象 预 分 配 n 个 Interval 对 象 ， 然 后 将 所 有 Interval 对 和 象 加 入 到 free intervals 
中 ; 当 在 使 用 Gtid_set 的 过 程 中 发 现 free_intervals 中 已 经 没有 空闲 的 Interval 对 象 时 ， 这 时 会 
分 配 一 个 新 的 Interval_chunk 对 象 ， 将 其 中 的 所 有 Interval 对 象 加 入 到 free_intervals 中 ; 在 
Gtid_set 销 毁 的 时 候 ，chunks 中 的 所 有 Interval_chunk 对 象 都 会 被 释放 掉 。 


下 面 我 们 看 一 下 Gtid_set 中 各 个 成 员 函 数 的 作用 。 


口 _add_gtid: 向 Gtid_set 中 添加 一 个 GTID。 

口 _remove_gtid: 从 Gtid_set 中 删除 一 个 GTID。 

口 add_gtid set: 向 Gtid_set 中 添加 一 个 GTID 集 合 。 

口 remove_gtid_set: 从 Gtid_set 中 删除 一 个 GTID 和 集合。 

O contains gtid: 判断 某 个 GTID 是 否 在 当前 Gtid_set 中 。 

O is subset: 判断 当前 Gtid_set 是 和 否 是 另 一 个 Gtid_set 的 子 集 。 
O is_intersection_nonempty: 判断 两 个 Gotid_set 的 交集 是 否 不 为 空 。 
O intersection: 求 两 个 Gtid_set 的 交集 。 

O bool is_valid: 判断 某 个 字符 串 是 否 是 一 个 GTID 集 合 的 合法 表示 。 
口 to_string: 将 当前 Gtid_set 表 示 成 字符 串 形式 。 

O get_sid_ map: 获取 包含 的 sid_map。 


@ 类 Gtid state 


在 MySQL 中 ， 不 是 直接 使 用 Gtid_set 类 ， 而 是 使 用 Gtid_state 类 来 管理 各 种 GTID 集 合 。 
Gtid_ state 类 在 全 局 只 有 一 个 实例 Gtid state *gtid state。 下 面 我 们 给 出 该 类 的 定义 : 


// sql/rpl gtid.h 


class Gtid state 
{ 


private: 


= 
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Gtid_set logged gtids; // 所 有 被 执行 并 且 记 录 到 binlog 的 GTID 集 合 

Gtid_set lost_gtids; // 被 删除 的 binlog 中 的 GTID 集 合 ，lost_gtids 永 远 
// 是 logged_gtids 的 子 集 

Owned gtids owned gtids; // 被 线程 持 有 的 GTID 集 合 

mutable Checkable_rwlock *sid_lock; // 读 写 保护 锁 

mutable Sid map *sid_map; 

rpl_sidno server_sidno; // 当前 MySQL 的 sidno 

public: 
void init(); // 初始 化 


// 判断 指定 的 GTID 是 否 属于 1ogged_gtids 

bool is_logged(const Gtid &gtid) const; 

// 获取 持 有 指定 GTID 的 线程 号 

my_thread id get owner(const Gtid &gtid) const; 

// 为 线程 thd 获 取 指 定 的 GTID 

enum_return_status acquire_ownership(THD *thd, const Gtid &gtid); 


// 自动 生成 GTID 
rpl gno get_automatic_gno(rpl_sidno sidno) const; 


// 系统 初始 化 时 添加 lost_gtids 
enum_return_status add_lost_gtids(const char *text); 


const Gtid set *get_logged_gtids() const { return &logged_gtids; } 
const Gtid_set *get_lost_gtids() const { return &lost_gtids; } 
const Owned_gtids *get_owned_gtids() const { return &owned_gtids; } 


Ie 
接着 我 们 给 出 类 Gtid _ state 中 各 个 成 员 的 含义 。 


口 1ogged_gtids: 包含 了 该 MySQL 实 例 上 执行 过 的 并 且 记 录 在 binlog 中 的 所 有 GTID。 

O lost_gtids: 包含 了 已 经 删除 的 那些 binlog 文 件 中 包含 的 所 有 GTID。1ost_gtids 永 远 是 
logged gtids 的 子 集 。 

口 owned_gtids: 管理 所 有 正在 被 线程 使 用 的 GTID 集 合 。 


下 面 是 类 Gtid_state 中 各 个 成 员 函 数 的 作用 。 


O is logged: 判断 指定 的 GTID 是 否 包含 在 logged_gtids 内 。 
口 get_owner: 获取 拥有 指定 GTID 的 线程 。 
口 acquire_ownership: 为 线程 thd 获 取 指 定 的 GTID。 

口 get_automatic_gno: 该 函数 的 作用 是 自动 生成 下 一 个 GTID 的 gno,， GTID 的 sidno 由 参数 指 
定 。 该 函数 会 检查 logged_gtids 的 内 容 , 生成 一 个 最 小 的 gno, 保证 该 GTID 在 logged_gtids 
和 owned_gtids 中 都 没有 出 现 。 例 如 , 当前 logged_gtids 中 的 内 容 是 1:1-8:12-32,2:1-6:11- 


ud 
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26:34-66,3:1-48 ,我们 想 要 通过 该 函数 自动 生成 sidno 为 2 的 下 一 个 GTID 的 gno。 我 们 看 到 ， 
sidno 为 2 的 Gtid_set 里 面包 含 了 3 个 区 间 1-6、11-26 以 及 34-66 , 我们 会 取 6 作 为 下 一 个 GTID 
的 候选 gno ( 注意 这 里 取 的 是 6 而 不 是 7, 这 是 因为 该 区 间 是 前 闭 后 开 的 )。 如 果 GTID{2:6} 
没有 包含 在 owned_gtids 内 ， 说 明 该 GTID 还 没有 被 任何 人 使 用 ， 就 返回 该 GTID; 如 果 包 
含 在 owned_gtids 中 ， 说 明 该 GTID 正 在 被 别人 使 用 ， 这 时 我 们 取 下 一 个 GTID{2:7}， 然 后 
看 该 GTID 是 否 被 别 的 线程 所 使 用 , 依次 类 推 ,， 直到 找到 一 个 没有 使 用 的 GTID 。 该 函数 会 
在 事务 提交 到 binlog 时 被 调用 ， 用 来 生成 一 个 即将 写 入 到 binlog 中 的 GTID 事 件 。 
口 add_ lost_gtids: 系统 初始 化 的 过 程 中 ,会 调用 该 函数 将 已 删除 binlog 文 件 中 包含 的 GTID 
集合 添加 到 lost_gtids 中 。 


2. GTID 在 MySQL 中 是 如 何 工 作 的 


介绍 完 MySQL 实 现 中 GTID 相 关 的 几 个 数据 结构 之 后 ， 接 下 来 我 们 分 别 从 系统 启动 到 事务 执 
行 的 过 程 中 GTID 机 制 在 MySQL 内 部 是 如 何 运 作 的 以 及 在 复制 过 程 中 GTID 是 如 何 发 挥 作用 的 这 
几 个 方面 介绍 。 


@ 系统 启动 时 


在 MySQL 启 动 的 过 程 中 ， 如 果 配 置 了 --gtid_mode=on 人 参数 ， 则 会 调用 gtid_server_init 函 数 
分 配 全 局 变量 Gtid_state *gtid_state。 前 面 我 们 提 到 gtid_state 是 Gtid_state 类 在 全 局 的 唯一 实 
例 ， 后 续 所 有 对 GTID 的 操作 都 是 基于 该 实例 的 。 


接 下 来 会 调用 mysql bin log 的 init gtid _ sets 函数 ， 使 用 binlog 的 内 容 来 初始 化 gtid_state 
的 logged_gtids 成 员 和 lost_gtids 成 员 。 前 面 介绍 过 ， 在 GTID 开 启 的 模式 下 ， 我 们 会 在 binlog 中 
额外 记录 两 种 事件 一 一 Previous_ gtids 事 件 和 Gtid 事 件 ,Previous_gtids 事 件 记录 在 binlog 的 开头 ， 
用 来 记录 在 该 binlog 文 件 之 前 所 有 执行 过 的 事务 对 应 的 GTID 和 集合; 在 binlog 中 记录 每 个 事务 之 前 ， 
都 会 先 写 入 一 个 Gtid 事 件 与 该 事务 相对 应 。 下 面 给 出 了 init_gtid_sets 函 数 的 主要 工作 。 


口 收集 所 有 binlog 文 件 名 ， 按 顺序 放 和 人 一 个 链表 。 

O 读 取 链 表 中 最 新 binlog 文 件 中 的 Previous_gtids 事 件 和 所 有 的 Gtid 事 件 ， 并 将 这 些 事件 代 
表 的 GTID 集 合 加 入 到 logged_gtids 中 。 

口 读 取 链表 中 最 老 binlog 文 件 的 Previous_gtids 事 件 ， 将 事件 表示 的 GTID 集 合 加 入 到 
lost gtids 中 。 


如 果 配 置 了 复制 ， 则 在 系统 启动 阶段 会 调用 init_slave 函 数 来 初始 化 复制 相关 的 内 容 。 如 果 
同时 开启 了 GTID，init_slave 函 数 会 读 取 relay-log 的 内 容 ， 将 Previous_gtids 事 件 以 及 Gtid 事 件 
记录 的 GTID 信 息 记 录 下 来 ， 在 从 库 请 求 主 库 发 送 binlog 时 会 携带 发 送 GTID 信 息 ， 这 样 主 库 就 知 
道 哪些 事务 应 该 发 送 给 从 库 ， 哪 些 不 需要 发 送 。 当 然 ， 这 只 有 在 使 用 CHANGE MASTER T0 命 令 时 指 
定 了 MASTER_AUTO_POSITION=1 的 情况 下 才 起 作用 。 
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@ 事务 提交 时 


从 上 面 可 以 看 到 ， 当 执行 完 init_gtid_sets 函 数 之 后 ，GTID 相 关 的 内 容 已 经 初始 化 完成 了 。 
下 面 我 们 看 一 下 事务 提交 时 GTID 机 制 是 如 何 工作 的 。 


我 们 在 第 6 章 中 介绍 过 , 一 个 事务 的 所 有 修改 产生 的 事件 不 会 直接 写 入 到 binlog, 而 是 暂时 组 
存在 binlog_cache_mngr 结 构 中 ,只 有 该 事务 提交 时 才 会 把 binlog_cache_mngr 中 的 内 容 完 整地 写 信 
到 binlog 中 。 在 GTID 模 式 下 ， 当 事务 提交 时 ,在 将 binlog_cache_mngr 内 的 内 容 写 人 到 binlog 之 前 ， 
会 插入 一 个 Gtid 事 件 到 binlog_cache_mngr 中 与 该 事务 对 应 ,然后 再 将 binlog_cache_mngr 中 的 内 容 
全 部 写 入 到 binlog 中 。 


@ binlog 发 生 切 换 时 


当 binlog 发 后 切换 时 ， 通 常情 况 下 会 在 新 的 binlog 文 件 的 开头 记录 一 个 Format desc 事 件 ， 然 
后 该 binlog 文 件 会 成 为 当前 活跃 的 binlog 文 件 ， 所 有 后 续 的 事务 产生 的 事件 都 会 被 写 人 到 该 文件 。 
在 GTID 模 式 下 ， 当 发 生 binlog 切 换 时 ， 在 写 人 一 个 Format_desc 事 件 后 ， 紧 接着 会 记录 一 个 
Previous_gtids 事 件 ， 将 logged_gtids 中 包含 的 GTID 集 合 记录 下 来 ， 代 表 当 前 已 经 执行 过 的 所 有 
GTID 集 合 。 


@ binlog 发 生 删 除 操作 时 


当 binlog 发 生 删 除 操作 时 ,我 们 需要 更 新 lost_gtids 的 内 容 , 将 所 有 已 经 删除 的 binlog 文 件 包 
含 的 GTID 添 加 到 lost_gtids 中 去 。 


@ 复制 中 GTID 的 作用 


下 面 我 们 介绍 一 下 在 GTID 模 式 下 ,MySQL 中 与 复制 相关 的 3 个 线程 各 自分 别 做 了 哪些 额外 的 
工作 ， 进 一 步 加 深 对 基于 GTID 模 式 复制 工作 机 制 的 理解 。 


(1) slave IO 线程 


在 连接 到 主 库 之 后 ,调用 get_master version_and_clock 函 数 获 取 主 库 的 版 本 和 时 钟 信息 时 ， 
也 会 查询 主 库 是 否 支 持 GTID 模 式 ， 并 将 结果 记录 下 来 以 便 后 续 使 用 。 


接 下 来 调用 request_dump 函数 请 求 主 库 发 送 binlog 事 件 。 通 常情 况 下 ， 该 函数 会 发 送 

COM BINLOG_DUMP 命 令 ， | 如 果 使 用 CHANGE MASTER TO 命令 时 

HE 了 MASTER_AUTO_POSITION = 1， 将 会 发 送 COM_BINLOG _DUMP_GTID 命 令 给 主 库 ， 同 时 将 当前 
logged_gtids 和 relay-log 包 含 PA 全 主 库 ， 让 主 库 知 道 从 库 已 经 接收 了 哪些 事务 。 


从 库 获取 主 库 的 binlog 事 件 后 , 会 将 其 记录 到 relay-log 中 。 如 果 获 取 的 是 Gtid 事 件 , 该 事件 也 
会 被 写 入 到 relay-log 中 。 
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(2) slave SQL 线程 


在 GTID 模 式 下 ， 我 们 必须 开启 log-slave-updates 选 项 ， 这 样 当 从 库 的 slave SQL 线程 重 放 
relay-log 的 内 容 时 ,会 将 对 数据 库 的 更 新 记录 到 binlog 中 , 同时 将 原 的 Gtid 事 件 ( 不 是 新 生成 的 Gtid 
事件 ， 因 为 该 GTID 对 应 的 事务 是 在 主 库 上 提交 的 ， 从 库 只 是 重 放 而 已 ) 写 人 到 binlog 中 。 除 此 之 
外 ， 还 会 将 该 GTID 添 加 到 logged_gtids 中 。 所 以 ， 当 我 们 在 从 库 上 使 用 SHOW BINLOG EVENTS 命 令 
查看 binlog 事 件 时 , 可 能 看 到 sidno 不 同 的 Gtids 事 件 , 它们 分 别 对 应 于 主 库 上 提交 的 事务 和 从 库 上 
提交 的 事务 。 


(3) master dump 线 程 


当主 库 收 到 COM_BINLOG_DUMP_GTID 命 令 时 ， 会 执行 com_binlog_dump_gtid 函 数 ， 向 从 库 发 
送 binlog 事 件 。 该 函数 解析 从 库 发 送 过 来 的 GTID 人 集合， 根据 该 集合 来 定位 发 送 binlog 事 件 的 开 
始 位 置 。 


下 面 我 们 来 简单 描述 一 下 master dump 线 程 是 如 何 根据 从 库 发 送 过 来 的 GTID 集 合 来 自动 判断 
从 哪儿 开始 发 送 binlog 事 件 。 


@ 调用 mysql_ bin log 的 find first log not in gtid set 函数 ， 找 到 第 一 个 含有 从 库 未 接收 
事务 的 binlog 文 件 ， 说 明 从 库 之 前 的 接收 工作 进行 到 了 该 文件 的 某 个 位 置 。 

© 读 取 该 binlog 文 件 ， 如 果 遇 到 Gtid 事 件 ， 查 看 该 GTID 是 否 包 含 在 从 库 发 送 过 来 的 GTID 集 
合 中 ， 如 果 在 , 说 明 该 事务 已 经 发 送 给 从 库 ， 则 跳 过 该 事务 ; 如果 没有 在 ， 则 说 明 从 库 上 次 没有 
复制 该 事务 ,将 其 发 送 给 从 库 。 


8.9.4 MariaDB 中 的 GTID 


由 于 MariaDB 文 持 多 源 复制 ,也 就 是 说 一 个 从 库 可 能 包含 多 个 主 库 , 为 了 在 从 库 上 区 分 多 个 
主 库 ， 让 复制 工作 能 够 正常 进行 ，MariaDB 中 的 GTID 由 三 部 分 组 成 : WID (domain id ), IRA #t 
ID (server id ) 和 序列 号 (sequence number )。 域 ID 的 主要 作用 是 区 分 多 源 复 制 中 的 多 个 主 库 ， 服 
务 器 ID 和 序列 号 的 作用 与 MySQL 中 GTID 的 源 ID 和 事务 ID 相同 。 


虽然 在 MariaDB 中 GTID 的 表示 方法 和 MySQL 有 所 不 同 ， 但 整体 的 工作 机 制 比较 类 似 ， 这 里 
我 们 就 不 做 进一步 介绍 了 ， 有 兴趣 的 读者 可 以 自行 查阅 官方 文档 ， 详 见 https://mariadb.conykb/ 


en/mariadb/mariadb-documentation/replication-cluster-multi-master/replication/global-transaction-1id/。 
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本 章 中 ， 我 们 介绍 了 MariaDB/MySQL 的 复制 功能 ， 分 析 了 复制 的 工作 机 制 及 其 实现 ， 并 且 
详细 讲解 了 半 同 步 复制 以 及 MariaDB 的 多 源 复制 相关 的 内 容 。 接 下 来 ,我 们 对 比较 重要 的 一 些 概 


念 进行 简短 的 回顾 。 


口 复制 有 助 于 我 们 构造 高 性 能 的 应 用 ， 也 为 高 可 用 性 、 可 扩展 性 、 备 份 、 灾 难 恢复 等 工作 

提供 了 可 行 的 方案 。 

口 复制 是 基于 二 进 制 日 志 进 行 的 ， 从 库 通 过 获取 主 库 的 binlog 事 件 ， 然 后 在 本 地 进行 重 放 ， 

使 从 库 拥有 与 主 库 相同 的 数据 。 要 想 使 用 复制 功能 ， 必 须 开 启 binlog。 

口 复制 的 工作 主要 由 3 个 线程 完成 的 : 主 库 上 的 master dump 线 程 负责 将 binlog 的 更 新 发 送 到 
MEE; 从 库 的 slave IO 线程 负责 接收 主 库 发 送 过 来 的 binlog 事 件 ， 并 且 将 其 写 人 到 
relay-log 中 ; 从 库 的 slave SQL 线程 负责 对 relay-log 中 的 事件 进行 重 放 。 

口 master.info 文 件 存 储 的 是 从 库 连接 主 库 需 要 的 所 有 信息 以 及 从 库 接收 主 库 binlog 事 件 的 进 
度 等 信息 。relay_log.info 文 件 记录 的 是 从 库 重 放 的 进度 等 信息 。 正 是 有 了 这 些 信息 ,我 们 
才能 很 容易 地 使 用 STOP SLAVE 命 令 停 止 复制 ， 进 行 相应 的 分 析 或 者 备份 等 工作 ， 然 后 使 用 
START SLAVE 命 令 重 新 开启 复制 。 

O 从 MariaDB/MySQL 5.5 开 始 ，MariaDB/MySQL 以 插件 的 形式 引入 了 半 同 步 复制 功能 。 当 
至 少 一 个 从 库 收 到 更 新 之 后 ， 主 库 才 将 提交 的 事务 返回 给 客户 端 。 半 同步 复制 很 好 地 解 
决 了 主 从 数据 一 致 性 的 问题 。 

口 MariaDB 10.0 引 入 了 多 源 复制 的 功能 , 允许 一 个 从 库 可 以 有 多 个 主 库 , 该 功能 提供 了 将 多 
个 实例 的 数据 聚集 到 一 块 进行 分 析 处 理 或 者 使 用 一 个 实例 对 多 个 实例 的 数据 进行 备份 的 
方便 途径 。 为 了 实现 多 源 复制 ，MariaDB 对 一 些 命令 做 了 扩展 ,同时 新 增 了 几 个 命令 , 例 
如 START ALL SLAVES、STOP ALL SLAVES 等 。 

O MySQL 5.6.5 引 入 了 GTID 特 性 ， 使 复制 的 相关 工作 变 得 更 加 简单 。MariaDB 在 10.0.2 中 也 

引入 了 GTID 特 性 。 


数据 结构 和 算法 


数据 结构 和 算法 是 程序 的 灵魂 ,前 者 表示 如 何 组 织 你 的 数据 , 而 后 者 表示 如 何 处 理 这 些 数据 。 
合适 的 数据 结构 和 算法 能 够 让 你 的 程序 性 能 提高 数 十 倍 、 数 百倍 ， 甚 至 更 多 。 


本 章 中 ， 我们 将 对 数据 库 中 使 用 到 的 重要 数据 结构 以 及 MariaDB/MySQL 的 一 些 复杂 查询 
ORDER BY、JOIN 等 使 用 到 的 算法 进行 分 析 。 
本 章 的 内 容 主要 包括 : 
口 算法 复杂 度 
口 B+ 树 和 索引 
口 堆 与 排序 算法 
O order by 的 实现 
口 join 的 实现 


91 算法 复杂 度 

算法 是 定义 良好 的 计算 过 程 ， 它 取 一 个 或 一 组 值 作为 输入 ， 并 产生 一 个 或 一 组 值 作为 输出 。 
也 就 是 说 ， 算 法 是 一 系列 计算 步骤 ， 用 来 将 输入 数据 转换 成 输出 结果 。 

算法 的 复杂 度 分 为 时 间 复 杂 度 和 空间 复杂 度 ， 它 们 是 衡量 一 个 算法 好 坏 的 两 个 不 同 维度 的 
指标 。 

1. 时 间 复 杂 度 

算法 的 时 间 复 杂 度 描述 的 是 算法 运行 时 占用 的 时 间 随 问题 规模 的 变化 而 变化 的 规律 ,一般 情 
况 下 ， 算 法 中 基本 操作 重复 执行 的 次 数 是 问题 规模 2 的 某 个 函数 ， 我 们 记 为 TU) ， 若 某 个 辅助 函 
数 fn) 使 得 当 n 趋 近 于 无 穷 大 时 ，7T(n)/fn) 的 极限 值 为 不 等 于 0 的 常数 ， 则 称 函 数 fm) 是 7T(n) 的 同 数量 
级 函数 ， 记 作 7T(n)=O(tn))， 而 O(n)) 为 算法 的 渐进 时 间 复 杂 度 ， 简 称 为 时 间 复 杂 度 。 


常见 的 时 间 复 杂 度 有 : 常数 复杂 度 O(1)、 对 数 复杂 度 O(lgn)、 线 性 复杂 度 O(n)、 线 性 对 数 复 
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杂 度 O(nlgn)、 平 方 复杂 度 O(n”)、 立 方 复 杂 度 O(m)、 指 数 复杂 度 O(2”)， 等 等 。 如 果 算 法 中 执行 语 
句 的 次 数 是 固定 的 , 不 会 随 问 题 的 规模 增长 而 增长 ， 则 我 们 称 该 算法 具有 常数 时 间 复 杂 度 , 记 为 
O(1)， 例 如 哈 希 表 的 查找 和 插入 操作 。 


2. 空间 复杂 度 


空间 复杂 度 是 对 算法 在 执行 过 程 中 占用 的 临时 存储 空间 大 小 的 度量 ， 它 也 是 问题 规模 n 的 函 
数 ,一 个 算法 所 占用 的 存储 空间 主要 包括 输入 输出 数据 所 占 的 空间 和 算法 运行 过 程 中 临时 占用 的 
存储 空间 。 输入 输出 占用 的 存储 空间 由 问题 的 规模 决定 ,不 会 随 算法 的 不 同 而 改变 ,而 算法 在 运 
行 过 程 中 临时 占用 的 存储 空间 根据 算法 的 不 同 而 各 不 相同 ， 有 的 算法 只 需 占 用 少量 临时 存储 空 
间 ， 不 随 问题 规模 的 增 大 而 增加 ; 有 的 算法 占用 的 临时 空间 随 问 题 规模 的 增 大 而 增加 ， 当 n 较 大 
时 将 占用 较 多 的 存储 空间 。 


在 很 多 情况 下 , 一 个 算法 的 时 间 复 杂 度 和 空间 复杂 度 往往 是 相互 矛盾 的 , 时 间 复 杂 度 小 的 算 
法 经 常 具有 较 大 的 空间 复杂 度 , 而 时 间 复 杂 度 大 的 算法 经 常 具有 较 小 的 空间 复杂 度 。 我 们 不 能 一 
味 地 说 某 个 算法 是 好 还 是 坏 , 需要 根据 具体 的 应 用 场景 来 定 ， 只 要 能 够 满足 我 们 需求 的 都 是 好 算 
法 。 例 如 ， 如 果 我 们 的 存储 空间 是 非常 宝贵 和 有 限 的 资源 , 但 对 算法 的 执行 速度 要 求 不 是 那么 严 
格 的 情况 下 , 应 当选 择 空间 复杂 度 较 小 的 算法 ， 即 使 该 算法 具有 较 高 的 时 间 复 杂 度 ， 只 要 在 我 们 
能 够 接受 的 范围 内 就 可 以 , 因为 这 种 情况 下 存储 空间 是 比 时 间 更 珍贵 的 资源 。 如 果 我 们 对 算法 的 
执行 速度 有 非常 严格 的 要 求 ， 而 存储 空间 非常 充裕 , 那么 应 该 选择 时 间 复 杂 度 小 的 算法 ,即使 它 
会 占用 更 多 的 临时 空间 ， 因 为 在 这 种 情况 下 时 间 是 比 空间 更 珍贵 的 资源 。 算 法 的 选取 其 实 就 是 
权衡 什么 才 是 我 们 更 珍贵 的 资源 过 程 , 要 么 以 时 间 资 源 换取 空间 资源 , 要 么 以 空间 资源 换取 时 间 
资源 。 


9.2 B+ 树 和 索引 


数据 结构 是 存储 和 组 织 数据 的 一 种 方式 , 以 便于 对 数据 进行 访问 和 修改 。 没有 哪 种 数据 结构 
可 以 适用 于 所 有 的 用 途 和 目的 , 每 种 数据 结构 都 有 自己 的 长 处 和 局 限 性 。 本 节 中 ,我 们 将 介绍 一 
种 为 磁盘 或 其 他 直接 存 取 辅助 存储 设备 而 设计 的 一 种 平衡 查找 树 一 一 B+ 树 。B+ 树 能 够 降低 磁盘 
的 IO 次 数 ， 在 数据 库 以 及 文件 系统 中 得 到 了 广泛 使 用 。 


9.2.1 磁盘 的 读 取 


图 9-1 显 示 的 是 一 个 典型 的 磁盘 驱动 器 ， 这 个 驱动 需 主 要 包括 若干 盘 片 ， 它 们 以 固定 的 速度 
绕 共 用 的 主轴 旋转 。 每 个 盘 的 表面 覆盖 一 层 可 磁化 的 物质 , 每 个 盘 片 通过 磁 辟 末端 的 磁头 来 读 写 
数据 。 磁 臂 是 通过 物理 手段 连接 在 一 起 的 ， 它 们 可 以 将 磁头 移 近 或 者 远离 主轴 。 


虽然 磁盘 比 主 存 便宜 而 且 有 较 高 的 容量 , 但 它们 的 运行 速度 很 慢 , 因为 它们 有 机 械 移 动 的 部 
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分 , 包括 磁 臂 移动 和 盘旋 转 。 磁 臂 移 动 就 是 我 们 通常 所 说 的 寻 道 ,在 我 们 读 取 或 者 写 和 人 数据 的 时 
候 ， 首 先 需要 将 磁头 移动 到 正确 的 磁道 上 。 其 次 就 是 盘旋 转 ， 目 前 主流 的 商用 磁盘 的 旋转 速度 在 
7200 ~ 15 000 转 /分 钟 之 间 ， 旋 转 一 圈 需 要 花费 4 ~ 8.3 毫 秒 。 


为 了 平 挫 等 待机 械 移动 所 花费 的 时 间 , 磁盘 的 一 次 读 取 操作 通常 会 读 取 多 个 数据 项 , 例如 一 
次 读 取 512 字 节 、1024 字 节 ， 等 等 。 


图 9-1 ”磁盘 驱动 需 


9.2.2 B+ 树 


我 们 知道 内 存 的 一 次 存 取 操 作 需 要 几 十 纳 秒 到 100 纳 秒 ， 而 一 次 磁盘 IO 所 需 的 时 间 大 概 在 几 
毫秒 到 10 毫 秒 ， 两 者 之 间 相 差 5$ 个 数量 级 。 磁 盘 IO 操作 是 个 耗 时 的 过 程 ， 为 了 提高 系统 的 整体 性 
能 ， 应 该 尽量 减少 系统 的 磁盘 IO 次 数 。 

B+ 树 是 为 磁盘 或 其 他 直接 存 取 辅助 存储 设备 而 设计 的 一 种 平衡 查找 树 ， 它 与 红 黑 树 和 其 他 
平衡 二 义 树 类 似 , 但 在 降低 磁盘 的 IO 次 数 方面 做 得 更 好 。B+ 树 在 对 磁盘 IO 非常 敏感 的 系统 中 得 
到 了 非常 广泛 的 应 用 ， 例 如 文件 系统 和 数据 库 系 统 。 

棵 B+ 树 通常 由 一 个 根 结 点 、 多 个 非 叶子 结 点 和 多 个 叶子 结 点 组 成 。 

B+ 树 和 以 红 黑 树 为 代表 的 其 他 二 又 树 不 同 的 地 方 在 于 , B+ 树 的 每 个 结 点 可 以 有 许多 子 结 点 ， 
从 儿 个 到 几 千 个 不 等 。 也 就 是 说 ，B+ 树 的 “分 支 因 子 ” 很 大 ， 这 就 决定 了 B+ 树 的 高 度 比 含有 相 
同 结 点 数 的 红 黑 树 的 高 度 要 小 得 多 ,减少 了 读 取 某 个 元 素 时 需要 进行 的 磁盘 1/O 次 数 。 

B+ 树 是 B 树 的 变种 , 与 B 树 相 比 , B+ 树 的 一 个 最 大 不 同 点 是 所 有 的 数据 都 存储 在 叶子 节点 中 ， 
非 叶 子 节 点 只 存储 相应 的 键 。B+ 树 具有 如 下 儿 个 特点 。 


口 所 有 的 关键 字 都 出 现在 叶子 结 点 中 。 
口 不 可 能 在 非 叶子 结 点 命中 。 


200 第 9 章 数据 结构 和 算法 


口 非 叶子 结 点 相当 于 叶子 结 点 的 索引 ， 叶 子 结 点 相当 于 存储 数据 ( 关键 字 ) 的 数据 层 。 
口 数据 在 叶子 结 点 这 一 层 是 按 顺 序 排列 的 。 


B+ 树 从 诞生 以 来 得 到 了 广泛 的 应 用 。 在 文件 系统 领域 ,NTFS、ReiserFS、NSS、XFS、JFS 
和 ReFS 等 文件 系统 都 使 用 B+ 树 来 索引 文件 。 在 关系 型 数据 库 领域 ，IBM DB2、Microsoft SQL 
Server 、Oracle 、SQLite 以 及 MySQL/MariaDB 中 非常 多 的 存储 引擎 都 使 用 B+ 树 来 作为 数据 的 索引 ， 
提高 数据 的 查询 速度 。 著 名 的 键 / 值 存 储 引 擎 Tokyo Cabinet 也 支持 B+ 树 类 型 的 索引 。 


图 9-2 给 出 了 一 个 高 度 为 2 的 B+ 树 ， 从 图 中 可 以 看 出 ,叶子 结 点 不 仅 存储 了 关键 字 ， 而 且 还 存 
储 了 关键 字 对 应 的 数据 。 


图 9-2 B+ 树 


9.2.3 ”数据 库 索引 


数据 库 索 引 是 帮助 数据 库 高 效 获取 数据 的 数据 结构 , 也 就 是 说 , 数据 库 索 引 的 本 质 是 一 种 数 
据 结 构 ， 它 能 够 提高 查找 数据 的 速度 。 


数据 库 索 引 能 够 帮助 我 们 快速 定位 到 所 需 的 数据 ， 而 不 需要 遍历 表 的 所 有 行 。 同时, 索引 增 
加 了 写 操作 的 开销 以 及 占用 的 存储 空间 , 因为 我 们 除了 要 写 和 相应 的 行 数据 , 还 需要 修改 对 应 的 
索引 。 当 表 的 索引 过 多 时 ,一 方面 会 占用 更 多 的 磁盘 空间 ， 另 一 方面 大 大 增加 了 写 人 的 开销 ,所 
以 通常 建议 一 个 表 的 索引 个 数 不 宜 过 多 ， 不 必要 的 索引 应 该 删除 。 


索引 分 为 聚 簇 索引 和 非 聚 篮 索 引 两 种 ， 聚 篮 索 引 中 表 数 据 的 物理 存储 顺序 和 索引 的 顺序 一 
致 ， 而 非 聚 簇 索 引 中 表 数 据 的 物理 存储 顺序 和 索引 的 顺序 无 关 。 由 于 表 数 据 的 物理 存储 顺序 只 可 
能 有 一 种 ， 所 以 一 个 表 只 能 有 一 个 聚 簇 索引 ,但 是 可 以 有 多 个 非 聚 簇 索 引 。 例 如 ， 一 个 InnoDB 
FF fins | BWR A ERE S| RERI) 和 多 个 二 级 索引 GERRI ) 


图 9-3 中 给 出 了 一 个 B+ 树 索引 的 例子 ， 根 结 点 位 于 内 存 ， 其 他 的 结 点 位 于 磁盘 。 在 实际 情况 
中 ， 由 于 系统 的 内 存 是 有 限 的 ， 内 存 中 只 存储 了 索引 的 部 分 结 点 ， 而 其 他 的 结 点 则 位 于 磁盘 中 ， 
当 查 询 的 数据 所 处 的 结 点 在 磁盘 中 时 ， 我 们 需要 将 该 结 点 从 磁盘 读 人 到 内 存 中 。 


当 我 们 查找 关键 字 为 60 的 数据 时 ， 首 先 从 根 结 点 开始 查找 ， 然 后 到 绪 点 A 中 查找 ， 最 后 到 结 
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点 B 中 查找 。 由 于 结 点 A 和 B 位 于 磁盘 中 ， 所 以 需要 将 它们 读 取 到 内 存 ， 这 样 就 涉及 两 次 磁盘 IO 
操作 。 


根 结 点 ， 位 于 内 存 


EE [18 [9] 


GECI 


图 9-3 ”B+ 树 索 引 
B+ 树 是 一 种 顺序 查找 树 ， 其 中 的 数据 是 按 顺 序 排列 的 。B+ 树 类 型 的 索引 具有 以 下 特点 。 


口 可 以 进行 范围 查找 。 由 于 B+ 树 中 的 数据 是 有 序 的 ， 所 以 B+ 树 类 型 的 索引 可 以 满足 类 似 
where time between '2014-05-01' and '2014-07-01' 或 者 where id < 1000 这 样 的 范围 查询 。 
口 支持 全 值 匹 配 查询 。B+ 树 类 型 的 索引 支持 where name = "Jim" 这 样 的 全 值 匹配 查询 。 

口 支持 最 左前 缀 匹配 。B+ 树 类 型 的 复合 索引 满足 最 左前 级 匹配 原则 。 


除了 B+ 树 索引 ， 很 多 数据 库 引擎 还 支持 哈 希 索引 。 哈 希 索 引 中 的 数据 是 无 序 的 ， 只 能 用 于 
精确 匹配 。 


9.3” 堆 排序 与 快速 排序 

本 节 中 ， 我 们 将 介绍 堆 数 据 结构 、 堆 排序 算法 和 快速 排序 算法 ， 为 后 面 讲解 order by 的 实现 
商定 基础 。 
9.3.1 堆 一 一 优先 级 队列 


堆 数 据 结构 是 一 种 数组 对 象 , 它 可 以 被 视 为 一 颗 完 整 的 二 又 树 , 树 中 的 每 个 结 点 与 数组 中 存 
放 该 结 点 值 的 那个 元 素 对 应 。 树 的 每 一 层 都 是 填 满 的 , 除了 最 后 一 层 。 下 面 我 们 给 出 了 堆 数 据 结 
构 中 父 结 点 以 及 左右 孩子 结 点 的 下 标 计算 公式 。 
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父 结 点 的 下 标 计算 公式 : parent(i) =i/2 
左 孩 子 结 点 下 标 计算 公式 : left(i) = 2* i 
右 孩 子 结 点 下 标 计 算 公 式 : right(i) =2*i4+1 


堆 分 为 大 根 堆 和 小 根 堆 两 种 : 大 根 堆 的 最 大 元 素 在 堆 项 父 结 点 元 素 的 值 总 是 大 于 等 于 子 结 
点 的 值 ; 小 根 堆 的 最 小 元 素 在 堆 项 ， 父 结 点 元 素 的 值 总 是 小 于 等 于 子 结 点 元 素 的 值 。 图 9-4 给 出 
的 是 一 个 大 根 堆 的 例子 。 


图 9-4 HERGES KIRE) 。 堆 可 以 看 作 一 棵 二 叉 树 (a) 和 一 个 数组 (b)。 
圆圈 中 的 值 表示 树 中 每 个 结 点 存储 的 值 ， 结 点 上 方 的 数字 表示 对 应 
的 数组 下 标 。 数 组 上 方 的 连 线 表 示 父 子 关系 


知 不 熟悉 堆 的 创建 、 往 堆 里 添加 元 素 以 及 以 堆 顶 取出 最 大 (小 ) 元 素 等 操作 , 读者 可 以 自行 
翻阅 相关 资料 ， 这 里 不 再 过 多 介绍 。 


9.3.2 ” 堆 排 序 


堆 排 序 算法 由 J. W. J. Williams 在 1964 年 发 明 的 ， 它 是 一 种 利用 堆 ( 优先 队列 ) 这 一 数据 结 
构 进行 排序 的 比较 排序 算法 ， 其 时 间 复 杂 度 为 O(nlgn)。 堆 排序 是 一 种 能 够 在 原 地 进行 排序 的 排 
堆 排 序 的 过 程 分 为 两 个 部 分 : 建 堆 过 程 和 排序 过 程 ,下 面 我 们 给 出 了 堆 排 序 的 主要 执行 流程 。 


(1) 建立 大 根 堆 。 

(2)i= 堆 大 小 ， 交 换 堆 顶 元 素 与 下 标 为 i 的 元 素 的 位 置 ， 堆 大 小 减 1， 让 堆 顶 元 素 在 新 堆 (大 
小 减 1 之 后 的 堆 ) 中 下 降 ， 使 新 堆 满 足 堆 的 性 质 。 

(3) 重复 执行 步 又 (2) 直 到 堆 的 大 小 为 1。 所 有 步 又 结束 之 后 , 数组 中 的 元 素 将 按 升序 排列 ， 排 
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序 过 程 结束 。 
如 果 想 将 元 素 按 降序 排列 ， 在 第 (1) 步 中 建立 小 根 堆 ， 其 他 步骤 不 变 。 
9.3.3 快速 排序 


快速 排序 是 一 种 被 广泛 使 用 的 比较 排序 算法 , 其 平均 时 间 复 杂 度 为 O(nlgn), 最 坏 时 间 复 杂 度 
为 O00)， 空 间 复杂 度 是 0(1)。 在 实践 中 ， 快 速 排 序 算法 通常 比 其 他 时 间 复 杂 度 为 O(nlgn) 的 比较 
排序 算法 拥有 更 快 的 速度 ,因为 快速 排序 算法 具有 更 小 的 常数 因子 , 所 以 快速 排序 是 我 们 通常 首 
选 的 比较 排序 算法 。 


快速 排序 算法 由 Tony Hoare 于 1960 年 发 明 的 ， 当 时 Tony 正 在 开发 一 个 机 器 翻译 的 项 目 , SA 
中 需要 对 待 翻 译 的 单词 进行 排序 。 快 速 排 序 算法 是 一 种 分 治 算法 ,首先 将 数组 划分 成 两 个 子 分 区 ， 
左边 子 分 区 的 所 有 元 素 小 于 右边 子 分 区 的 所 有 元 素 , 然后 在 子 分 区 中 递归 这 个 划分 过 程 ， 直到 分 
区 中 只 有 一 个 元 素 。 该 算法 的 执行 步 又 如 下 。 


(1) 从 数组 中 选取 一 个 数 ， 作 为 基准 数 。 

(2) 将 小 于 基准 数 的 所 有 数 移动 到 基准 数 的 左边 ， 将 大 于 等 于 基准 数 的 所 有 数 移动 到 基准 数 
的 右边 。 经 过 分 区 之 后 ， 原 来 的 一 个 分 区 被 划分 成 两 个 子 分 区 , 左 分 区 的 任何 一 个 元 素 都 小 于 右 
分 区 的 任何 一 个 元 素 。 

(3) 在 左右 两 个 分 区 中 递归 执行 步骤 (1) 和 步骤 (2)， 直 到 分 区 只 有 一 个 元 素 。 


下 面 我 们 给 出 快速 排序 的 伪 代 码 ， 其 中 := 表示 赋值 操作 : 


qsort 


1. quicksort(A, i, k): 

2 if i < k: 

3. p := partition(A, i, k) 

4 quicksort(A, i, p-1) 

5 quicksort(A, p+1, k) 

6. partition(array, left, right) 

7. pivotIndex := choose-pivot(arrary, left, right) 
8. pivotValue := array[pivotIndex] 

9. swap array[pivotIndex] and array[right] 

10. storeIndex := left 

11. for i from left to right-1 

12. if array[i] <= pivotValue 

13. swap array[i] and array[storeIndex] 
14. storeIndex := storeIndex + 1 

15. swap array[storeIndex] and array[right] 

16. return storeIndex 


quicksort 的 过 程 相 对 比较 简单 : 传人 参数 为 数组 A[i，k] ， 如 果 i < k， 执 行 partition 过 程 将 
数组 分 成 两 个 子 分 区 A[i，p-1] 和 A[p+1，k] ，A[i，p-1] 分 区 中 所 有 元 素 的 值 小 于 等 于 A[p] 的 值 ， 
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A[p+1，k] 分 区 中 所 有 元 素 的 值 大 于 A[p] 的 值 。 然 后 在 两 个 子 分 区 上 递归 执行 quicksort 过 程 。 


quicksort 的 核心 是 划分 过 程 partition， 接 下 来 我 们 分 析 下 partition 的 执行 过 程 : 伪 代 码 第 
7 行 到 第 9 行 用 于 从 数组 中 选取 一 个 元 素 作 为 分 区 的 基准 数 , 并 将 该 元 素 和 数组 的 最 后 一 个 元 素 进 
行 交 换 。 伪 代码 第 11 行 到 第 14 行 中 for 循 环 用 于 判断 数组 中 元 素 的 值 与 基准 数 的 大 小 关系 ， 如 果 
元 素 的 值 小 于 基准 数 的 值 , 则 将 元 素 的 值 交 换 到 左边 分 区 。 最 后 将 基准 数 放 到 数组 中 的 合适 位 置 ， 
数组 被 该 基准 数 分 成 了 左右 两 个 子 分 区 。 


图 9-5 给 出 了 一 个 partition 的 例子 。 


lal eel pe ee 选取 一 个 元 素 作为 分 区 的 基准 数 ， 
$ 将 基准 数 放 到 数组 的 末尾 
Ex 
伪 代 码 的 for 循 环 部 分 ， 
16| 3 | 7 值 小 于 基准 数 的 元 素 交 换 到 左边 


| 


TELELE] sraon 


数组 被 划分 成 两 个 子 分 区 ， | 
四 四 四 四 加 四 四 加 左 分 区 中 所 有 元 素 的 值 都 小 于 等 于 基准 数 ， 
右 分 区 中 所 有 元 素 的 值 都 大 于 基准 数 


图 9-5 快速 排序 的 partition 过 程 


9.4 ORDER BY 的 实现 


ORDER BY 是 MariaDB/MySQL 使 用 比较 频繁 的 SQL 语句 ， 用 于 对 查询 结果 按照 指定 的 字段 进行 
排序 。ASC 和 DESC 关 键 字 指明 了 结果 集 是 按 升 序 还 是 降序 进行 排列 。ORDER BY 偶尔 也 会 和 LIMIT 关 键 
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字 组 合 使 用 ，LIMIT 关 键 字 用 于 限制 结果 集 的 数量 或 者 对 结果 集 进行 分 页 。ORDER BY 的 语法 如 下 : 
SELECT ... FROM tb [WHERE ...] ORDER BY ... [ASC | DESC] [LIMIT n,m] 


下 面 给 出 的 例子 使 用 ORDER BY 按照 STATE 字段 对 结果 集 进 行 排列 : 


mysql> SELECT * FROM userinfo ORDER BY state; 


+------- +----------------------------- +------------------- 十 
id name state | 
+------- +----------------------------- +------------------- 十 
1 jim California | 
5 J.Rod California | 
2 can Florida | 
4 billy Florida | 
3 Jordan Kansas | 
6 J.W.J Williams Kansas | 
+------- +----------------------------- +------------------- 十 


6 rows in set (0.01 sec) 


9.4.1 使 用 索引 的 已 有 顺序 


通常 情况 下 ， 当 收 到 ORDER BY 请 求 时 ，MariaDB/MySQL 需 要 对 结果 集 按照 指定 的 字段 进行 排 
序 ， 然后 返回 给 客户 端 。 当 满足 某 种 条 件 时 ，MariaDB/MySQL 会 利用 数据 库 索 引 ( 这 里 指 的 是 
B+ 树 类 型 的 索引 ， 因 为 只 有 B+ 树 类 型 的 索引 才 有 顺序 ， 所 以 本 节 中 我 们 都 假设 索引 类 型 为 B+ 树 
类 型 ) 具有 一 定 的 顺序 这 一 特性 ,按照 索引 顺序 将 结果 返回 给 客户 端 ， 这 样 就 省 略 了 对 结果 集 的 
排序 过 程 ， 加 快 了 查询 的 响应 速度 。 


下 面 我 们 通过 一 个 例子 来 讲解 使 用 现 有 索引 的 已 有 顺序 来 满足 ORDER BY 操作 必须 具备 的 几 个 
条 件 。 我 们 创建 了 一 个 userinfo 表 ， 该 表 包 含 两 个 索引 ， 一 个 主键 索引 (uid ) 和 一 个 二 级 索引 


(create_time, name ): 


CREATE TABLE “userinfo” ( 
~uid> int(11) NOT NULL, 
~name~ varchar(64) NOT NULL, 
“adress. varchar(128) DEFAULT NULL, 
“create time datetime DEFAULT NULL, 
~email~ varchar(128) DEFAULT NULL, 
PRIMARY KEY (“uid”), 


KEY ~idx_uni> (“create time’ name ) 
) ENGINE=InnoDB DEFAULT CHARSET=utf8; 9 
下 面 我 们 给 出 几 种 ORDER BY 语句 利用 索引 的 已 有 顺序 进行 排序 的 情况 。 


首先 ， 使 用 WHERE 语句 和 ORDER BY 语句 满足 组 合 索 引 的 最 左前 级 ， 并 且 查 询 的 所 有 列 都 包含 
在 该 索引 中 ， 下 面 我 们 给 出 两 条 SELECT 语句 来 验证 这 一 点 : 


206 第 9 章 ”数据 结构 和 算法 


mysql> EXPLAIN SELECT * FROM userinfo WHERE create_time="2014-05-02" ORDER BY name; 


+------- +------------------- +-------------- +--------- +---------------------------------------- 十 
| id | select_type | table l-a | Extra | 
+------- +------------------- +-------------- +--------- +---------------------------------------- 十 
| 1 | SIMPLE | userinfo | 2 | Using where; Using filesort | 
+------- +------------------- +-------------- +--------- +---------------------------------------- 十 


1 row in set (0.00 sec) 


+------- +------------------- +-------------- +--------- +---------------------------------------- 十 
| id | select_type | table | | Extra | 
+------- +------------------- +-------------- +--------- +---------------------------------------- 十 
| 1 | SIMPLE | userinfo |z | Using where; Using index | 
+------- +------------------- +-------------- +--------- +---------------------------------------- 十 


1 row in set (0.00 sec) 


这 里 我 们 主要 关注 EXPLAIN 输 出 的 Extra 列 的 结果 ，Using index 表 示 使 用 索引 的 已 有 顺序 来 满 
JEORDER BY 请 求 ，Using filesort 表 示 使 用 filesort 算 法 来 进行 实 实在 在 的 排序 操作 ， 对 结果 集 进 
行 排序 来 满足 ORDER BY 请 求 。 


第 一 条 SELECT 语句 中 ， 虽 然 WHERE 语 句 和 0RDER BY 语句 的 组 合 满足 组 合 索 引 的 最 左前 级 , 但 是 
查询 的 列 没有 全 部 包含 在 组 合 索 引 中 。 而 第 二 条 SELECT 语 句 中 ， 查 询 的 列 都 包含 在 索引 中 ， 所 以 
使 用 了 索引 的 已 有 顺序 来 对 结果 集 进行 排序 。 


其 次 ， 想 要 利用 索引 的 已 有 顺序 来 满足 ORDER BYR, order by 各 个 字段 必须 包含 在 同一 个 
索引 中 ， 并 且 字 段 的 顺序 必须 和 索引 的 顺序 完全 一 致 或 完全 相反 。 下 面 我 们 给 出 例子 来 证 明 这 
— 4. 


ayy © 


mysql> EXPLAIN SELECT name FROM userinfo ORDER BY create_time, name; 


+-------- +------------------- +------------------- +---------- +----------------------------------- 十 
| id | select type | table |. | Extra | 
+-------- +------------------- +------------------- +---------- +----------------------------------- 十 
| 1 | SIMPLE | userinfo | | Using index | 
+-------- +------------------- +------------------- +---------- +----------------------------------- 十 


1 row in set (0.00 sec) 


mysql> EXPLAIN SELECT name FROM userinfo ORDER BY create_time desc, name desc; 


+-------- +------------------- +------------------- +---------- +------------------------------------ 十 
| id | select type | table | | Extra | 
+-------- +------------------- +------------------- +---------- +------------------------------------ 十 
| 1 | SIMPLE | userinfo | | Using index | 
+-------- +------------------- +------------------- +---------- +------------------------------------ 十 


1 row in set (0.00 sec) 
mysql> EXPLAIN SELECT name FROM userinfo ORDER BY create_time ASC, name DESC; 


| id | select_type | table REEF | Extra 
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+-------- +------------------- +------------------- +---------- +------------------------------------ + 

|1 | SIMPLE userinfo rs | Using index; Using filesort 

+-------- +------------------- +------------------- +---------- +------------------------------------ + 

1 row in set (0.00 sec) 

第 一 条 SELECT 语句 按照 create_time 和 name 进 行 升序 排列 , 第 二 条 SELECT 语句 按照 create_time 
和 name 进 行 降序 排列 ， 都 可 以 利用 索引 的 已 有 顺序 来 满足 ORDER BY 请 求 ， 而 第 三 条 SELECT 语句 混 
合 使 用 AsC 和 DESC 来 修饰 ORDER BY 的 字段 ， 导 致 不 能 使 用 索引 的 已 有 顺序 来 满足 ORDER BY 的 请 求 。 


9.4.2 filesort 算 ; 


当 不 能 使 用 已 有 索引 的 顺序 来 满足 ORDER BY 请 求 时 ，MariaDB/MySQL 使 用 filesort 算 法 对 查询 
结果 进行 实 实在 在 的 排序 操作 ， 下 面 简要 介绍 一 下 这 个 算法 。 


1. filesort 算 法 的 执行 流程 


图 9-6 给 出 了 flesort 算 法 的 执行 流程 。 当 结果 集 比 较 小 时 , 排序 缓冲 区 能 够 存储 所 有 匹配 查询 
的 行 ,直接 在 排序 缓冲 区 中 进行 快速 排序 ， 然 后 返回 给 客户 端 。 这 种 情况 下 ， 排 序 动作 发 生 在 内 
存 中 , 效率 会 比较 高 。 当 结果 集 比 较 大 的 时 候 ， 排 序 缓存 区 不 能 存储 所 有 匹配 查询 的 行 ， 读 取 部 
分 匹配 的 行 到 排序 缓冲 区 , 然后 进行 快速 排序 , 将 排 好 序 的 结果 集 写 入 到 临时 文件 中 , 重复 这 个 
过 程 ， 直 到 所 有 匹配 的 行 都 写 入 到 了 临时 文件 , 最 后 对 临时 文件 中 的 数据 进行 归并 排序 ,得 到 最 
终 的 结果 。 


ee 从 表 中 读 取 匹配 查询 的 
从 表 中 读 取 匹配 查询 的 所 有 ol ate 
有 Ae eo arse 
重复 这 个 
es 排序 缓冲 
在 排序 缓冲 区 中 进行 快速 排序 ， 然 后 排序 缓冲 区 满 了 ， 进 行 忆 
将 排 好 序 的 结果 集 返 回 给 客户 端 速 排序 ， 将 排 好 序 的 结果 
集 写 和 到 临时 文件 
临时 文件 
| 一 


将 结果 集 返 回 给 客户 端 


进行 归并 排序 (merge sort) , 9 o 
| 结果 4 > 


(a) (b) 
图 9-6 ”filesort 算 法 
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2. filesort 相 关 的 参数 


下 面 我 们 介绍 MariaDB/MySQL 中 两 个 和 filesort 排 序 算法 相关 的 参数 sort_buffer_size 和 
max_length for sort data。 


口 sort_buffer_size 参 数 。 该 参数 的 作用 是 设置 filesort 算 法 排序 缓冲 区 的 大 小 ， 它 直接 决定 
了 排序 操作 的 效率 。 当 排序 缓冲 区 不 足以 存储 所 有 匹配 查询 的 行 时 , filesort 算 法 需要 借助 
临时 文件 来 存储 中 间 结 果 集 , 这 会 导致 对 磁盘 文件 的 IO 操作 , 从 而 降低 排序 操作 的 效率 。 
从 这 方面 来 考虑 ，sort_buffer_size 参 数 的 值 越 大 越 好 ， 因 为 这 样 可 以 保证 所 有 的 排序 动 
作 都 发 生 在 内 存 中 。 但 是 ， 从 另 一 方面 来 讲 ， 系 统 资源 是 有 限 的 。 同 时 ， 有 个 需要 注意 
的 地 方 是 , MariaDB/MySQL 每 个 连接 有 自己 独立 的 排序 缓冲 区 。sort_buffer_size 参 数 指 
定 的 是 每 个 单独 排序 缓冲 区 的 大 小 ， 没 有 参数 限制 所 有 排序 缓冲 区 占用 的 内 存 大 小 ， 所 
以 当 连 接 数 比 较 多 , 并且 其 中 有 大 量 的 连接 正在 进行 ORDER BY 操作 时 ， 将 会 导致 排序 缓冲 
区 占用 大 量 的 内 存 ， 导 致 系统 资源 紧张 。 所 以 应 该 根据 自己 的 具体 应 用 场景 ， 为 
sort_buffer_size 选 择 合适 的 值 。 

口 max_length_for_sort_data 参 数 。 当 在 内 存 中 排序 时 ，filesort 算 法 会 根据 查询 语句 所 取出 
的 所 有 字段 的 长 度 总 和 与 参数 max_length_for_sort_data 值 的 大 小 关系 来 选择 两 种 不 同 的 
策略 进行 排序 。 如果 前 者 大 , filesort 算 法 首先 取出 排序 字段 以 及 可 以 定位 行 数据 的 行 指针 
信息 ， 然 后 在 排序 缓冲 区 中 进行 排序 ， 最 后 根据 行 指 针 信息 取出 其 他 字段 的 值 。 这 种 方 
式 的 排序 优点 是 行 数据 进行 了 压缩 ( 仅仅 取出 了 排序 相关 的 字段 以 及 行 指针 )， 同 样 大 小 
的 排序 缓冲 区 可 以 存储 更 多 的 行 ; 缺点 是 需要 两 次 访问 表 数 据 ， 第 一 次 从 表 中 取出 排序 
字段 和 行 指针 ， 第 二 次 是 根据 排 好 序 的 行 指针 ， 从 表 中 取出 其 他 字段 的 值 。 当 
max_length_for_sort_data 的 值 大 于 查询 语句 中 所 查询 的 所 有 字段 的 长 度 总 和 时 ，filesort 
算法 会 一 次 性 地 从 表 中 取出 所 查询 的 所 有 字段 ， 然 后 在 排序 缓冲 区 中 进行 排序 操作 。 这 
种 方式 的 优点 是 只 访问 了 一 次 表 数 据 ， 减少 了 访问 表 数 据 导致 的 VO 操作 ; 缺点 是 由 于 行 
数据 没有 进行 压缩 ， 会 耗 用 更 多 排序 缓冲 区 的 空间 。 


3. filesort 算 法 对 包含 LIMIT 关 键 字 的 优化 

MORDER BY 查询 中 包含 LIMIT 关 键 字 时 ， 如 果 LIMIT 关 键 字 后 面 的 参数 n 与 mn 的 和 比 匹配 查询 的 
结果 集 小 很 多 时 , filesort 算 法 内 部 会 采取 堆 排 序 算法 而 不 是 快速 排序 算法 在 内 存 中 对 行 数据 进行 
排序 : 

SELECT * FROM tb1 [WHERE Ee | ORDER BY col LIMIT n, m 

在 具体 介绍 MariaDB/MySQL 在 对 包含 LIMIT 关 键 字 的 ORDER BY 做 的 优化 之 前 ， 我 们 先 来 看 一 
个 问题 : 如 何在 10 亿 个 整数 中 获取 最 大 的 100 个 整数 ? 


下 面 我 们 给 出 几 种 解决 该 问题 的 方案 。 
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@ 方案 ] 

第 一 个 是 容易 想到 的 解决 方案 如 下 ， 我 们 将 其 称 为 方案 1。 

(1) 对 10 亿 个 整数 进行 降序 排序 。 

(2) 取出 前 100 个 整数 。 

由 于 整数 的 范围 比较 大 , 不 能 使 用 像 计 数 排序 这 样 拥有 线性 时 间 复 杂 度 的 排序 算法 ,只 能 采 
用 比较 排序 算法 进行 排序 。 步 骤 (1) 的 时 间 复 杂 度 为 O(nlgn)( 当然 如 果 10 亿 个 整数 不 能 存储 在 内 
存 中 ,还 需要 借助 磁盘 文件 来 存储 中 间 结 果 ， 然 后 进行 归并 排序 ， 那 样 的 话 花 费 的 时 间 更 多 )， 
步 皆 (2) 的 时 间 复 杂 度 为 0(1)， 所 以 方案 1 的 时 间 复 杂 度 为 O(nlgn)。 


该 方案 对 应 于 SELECT * FROM ... ORDER BY col LIMIT n,m 中 的 n+m = 100， 而 匹配 查询 的 行 
数 为 10 亿 行 的 情况 下 ， 使 用 快速 排序 算法 对 所 有 数据 进行 排序 ， 然 后 取出 前 面 的 100 条 数据 。 


@ 方案 2 


假设 有 一 种 方法 能 够 从 一 组 数 中 找到 任意 第 x 大 的 数 ， 那 么 我 们 又 可 以 想到 另 一 种 方案 来 解 
决 上 面 提出 的 问题 ， 我 们 将 其 称 为 方案 2。 该 方案 的 执行 流程 如 下 : 


找 出 最 大 的 值 ， 找 出 第 2 大 的 值 ， 找 出 第 3 大 的 值 ，…… 找 出 第 100 大 的 值 。 


确实 存在 这 样 的 方法 ,可 以 找 出 数组 中 第 大 的 数 , 我 们 称 该 过 程 为 select。select 利 用 了 快 
速 排 序 中 的 partition 过 程 。 下 面 我 们 给 出 select 的 伪 码 : 


1. select(arry, left, right, m) 

2 if left == right 

3 return array[left] 

4 p := partition(array, left, right) 

5. pivotOffset = p - left + 1 

6. if m == pivotOffset 

7 return array[p] 

8 elseif m < pivotOffset 

9 return select(array, left, p-1, m) 
10. else 
11. return select(array, p+1, right, m-pivotO0ffset) 


假设 问题 的 规模 为 x*:， 那 么 select 过 程 需要 进行 约 2n 次 比较 操作 ， 也 就 是 说 select 的 时 间 复 
杂 度 为 O(n)。 那 么 方案 2 只 需要 执行 100 次 select 过 程 ， 就 能 找 出 前 100 个 整数 ， 进 行 的 比较 次 数 
KAA200n, 那么 方案 2 的 时 间 复 杂 度 为 O(n)。 虽 然 方案 2 具有 线性 时 间 复 杂 度 , 但 存在 如 下 两 个 
问题 。 
O n 前 面 的 系数 比较 大 (200 )。 


口 需要 遍历 所 有 元 素 100 次 ， 如 果 n 的 规模 比较 大 ， 内 存 无 法 存储 所 有 的 元 素 ， 就 必须 使 用 
磁盘 文件 来 存储 这 些 元 素 ， 此 时 每 次 遍历 所 有 元 素 就 会 涉及 磁盘 文件 的 1/O 操 作 。 


210 第 9 章 数据 结构 和 算法 


© 方案 3 


是 否 还 存在 一 个 更 好 的 方案 呢 ? 既 能 有 线性 的 时 间 复 杂 度 ， 并 且 只 需要 遍历 所 有 元 素 一 次 。 
答案 是 肯定 的 ， 这 就 是 我 们 接 下 来 要 介绍 的 ， 那 就 是 利用 堆 数 据 结构 ， 我 们 称 该 方案 为 方案 3。 


方案 3 的 执行 步骤 如 下 。 


(1) 创建 一 个 最 多 可 以 容纳 100 个 元 素 的 小 根 堆 ( 优先 队列 )。 

(2) 遍历 所 有 的 整数 ， 如 果 堆 未 满 ， 将 元 素 加 入 到 堆 中 ; 如 果 堆 已 满 ， 比 较 该 整数 与 堆 项 整 
数 的 大 小 关系 ,如果 小 于 堆 顶 的 整数 ,丢弃 该 整数 ， 如 果 大 于 堆 顶 的 整数 ， 以 该 整数 替换 掉 堆 项 
的 整数 ， 让 其 在 堆 中 下 降 。 


方案 3 需要 进行 n 次 比较 操作 ， 最 坏 的 情况 出 现在 n 个 整数 是 按照 升序 进行 排列 的 ， 每 次 比较 
完 之 后 都 需要 替换 掉 小 根 堆 堆 顶 的 元 素 ， 然 后 该 元 素 在 堆 中 进行 下 降 。 结 点 数 为 100 的 堆 对 应 的 
树 的 深度 为 7, 那么 每 次 下 降 过 程 最 多 下 降 6 层 ,也 就 是 说 方案 3 在 最 坏 情 况 下 需要 进行 n 次 比较 和 
6n 次 下 降 操作 。 所 以 方案 3 的 时 间 复 杂 度 为 O(n)， 系 数 在 1 至 7 之 间 ， 只 需要 遍历 一 次 所 有 的 元 素 。 

经 过 以 上 的 分 析 我 们 知道 , 三 种 方案 中 方案 3 是 最 快 的 方案 , 它 对 应 于 SELECT * FROM ... ORDER 
BY col LIMIT n,m 中 的 n+tm = 100 而 匹配 的 行 数 为 10 亿 行 时 ， 采 用 一 个 小 根 堆 来 存储 最 大 的 100 个 
结果 ， 然 后 采用 堆 排 序 将 堆 中 的 100 行 记录 进行 排序 。 这 也 就 是 我 们 接 下 来 要 介绍 的 
MariaDB/MySQL 针 对 LIMIT 所 做 的 优化 。 


MariaDB/MySQL 在 执行 flesort 算 法 对 结果 集 进 行 排序 的 过 程 中 ,会 调用 check_if pq_applicable 
函数 来 判断 是 否 需 要 采用 推 排序 来 替代 快速 排序 。 该 函数 主要 做 了 以 下 几 个 判断 。 


(1) 当 排 序 缓冲 区 能 够 容纳 的 记录 数 大 于 预计 匹配 查询 的 行 数 时 ， 如 果 1imit 中 的 n+m < C / 3， 
使 用 堆 排 序 ， 否 则 使 用 快速 排序 ， 其 中 C 表 示 预 计 匹 配 查 询 的 行 数 。 通 过 一 系列 的 测试 ， 在 内 存 
中 对 同样 的 数据 集 进行 排序 , 快速 排序 的 速度 是 堆 排 序 的 3 倍 左 右 , 所 以 公式 中 采用 系数 3 来 衡量 
是 使 用 快速 排序 算法 还 是 堆 排序 算法 。 

(2) 当 排 序 缓冲 区 能 够 容纳 的 记录 数 大 于 n+m 但 是 小 于 预计 匹配 查询 的 行 数 时 ，MariaDB/MySQL 
会 评估 是 采用 堆 排 序 快 还 是 采用 快速 排序 加 归并 排序 快 ,然后 选择 合适 的 方案 。 评 估 终 归 是 评估 ， 
结果 不 可 能 百 分 百 正确 ,可 能 在 一 些 情 况 下 会 出 现 错误 的 评估 ,这 没有 关系 ， 只 要 大 多 数 情况 下 
是 正确 的 ， 就 能 够 提高 系统 的 整体 性 能 。 

(3) 当 排 序 缓 冲 区 不 能 容纳 n+m 行 数据 时 ， 使 用 快速 排序 。 


=a 


9.5 JOIN 的 实现 


为 了 得 到 完整 的 结果 , 我 们 需要 从 两 个 或 者 更 多 表 中 获取 数据 ,这 时 我 们 就 需要 执行 JOIN 语 
句 对 两 个 或 者 多 个 表 进行 连接 操作 。 本 方 中 ， 我 们 将 介绍 MariaDB/MySQL 中 JOIN 语 句 及 其 用 到 
的 相关 算法 。 
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9.5.1 JOIN 语句 的 使 用 

JOIN 语 句 用 于 对 两 个 或 更 多 的 表 进 行 连接 操作 ， 它 可 以 携带 WHERE 条 件 ， 用 于 对 结果 进行 过 
滤 。]JOIN 的 语法 如 下 ，ON 后 面 的 短语 我 们 称 为 连接 条 件 (join condition ): 

SELECT * FROM tb1[INNER | LEFT | RIGHT | CROSS] JOIN tb2 [ON tb1.a=tb2.b] [WHERE ...] 


JOIN 操作 包括 INNER JOIN, LEFT JOIN, RIGHT JOIN 和 CROSS JOIN 四 种 类 型 。 下 面 我 们 给 出 两 
张 表 table_a 和 table_b 的 记录 : 


table a 

id name 

1 steven 

2 king 

3 lily 

5 suarez 

6 halo 
table b 

id time 

2 20140702 
3 20140629 
4 20140520 
5 20140722 
1. INNER JOIN 


INNER JOIN 也 叫 内 连接 、 相 等 连接 或 者 等 值 连 接 ， 它 将 符合 连接 条 件 的 结果 显示 出 来 。 
在 MariaDB/MySQL 中 ，JOIN 和 INNER JOIN 是 等 价 的 。 下 面 给 出 了 对 上 面 两 张 表 进 行内 连接 的 


+ FA 
结果 : 


SELECT * FROM table a INNER JOIN table b ON table_a.id = table_b.id 


id name id time 

2 king 2 20140702 
3 lily 3 20140629 
5 suarez 5 20140722 


SELECT * FROM table a AS a INNER JOIN table b AS b ON a.id = b.id WHERE b.time > "20140701" 


id name id time 


5 suarez 5 20140722 


2. LEFT JOIN 
LEFTJOIN 也 叫 左 连接 ， 它 以 左边 表格 为 基准 进行 连接 ， 左 表 的 所 有 记录 都 会 显示 出 来 ， 而 
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右 表 只 会 显示 符合 连接 条 件 的 记录 ， 右 表 不 足 的 记录 都 会 以 NULL 填 充 ， 示 例如 下 : 


SELECT * FROM table_a AS a LEFT JOIN table_b AS b ON a.id = b.id 


id name id time 

1 steven NULL NULL 

2 king 2 20140702 
3 lily 3 20140629 
5 suarez 5 20140722 
6 halo NULL NULL 

3. RIGHT JOIN 


RIGHT JOIN 也 叫 右 连 接 ， 它 和 左 连接 相反 ， 以 右 表 作为 基准 进行 连接 ， 右 表 的 所 有 记录 
都 会 显示 出 来 ， 而 左 表 只 会 显示 符合 连接 条 件 的 记录 ， 左 表 不 足 的 记录 以 NULL 进 行 填充 ， 示 
例如 下 : 


SELECT * FROM table a AS a LEFT JOIN table b AS b ON a.id = b.id 


id name id time 

2 king 2 20140702 
3 lily 3 20140629 
NULL NULL 4 20140520 
5 suarez 5 20140722 
4. CROSS JOIN 


CROSS JOIN 也 叫 交 叉 连接 ， 在 SQL 标准 中 它 是 对 两 个 表 的 记录 做 笛 卡 尔 积 ， 但 在 MariaDB/ 
MySQL 中 ，CROSS JOIN 和 INNER JOIN 是 等 同 的 。 


9.5.2 Nest Loop Join 算 法 

正如 名 字 一 样 ，Nest Loop Join 算 法 就 像 我 们 写 程序 时 多 个 for 语 句 的 典 套 循环 结构 ， 每 次 从 
最 外 层 的 表 中 读 取 一 行 匹 配 查 询 条 件 的 记录 ,传递 给 下 一 个 内 骨 的 JOIN 循 环 ， 以 此 类 推 。 

下 面 我 们 给 出 一 个 例子 来 说 明 该 算法 的 执行 流程 。 假 如 我 们 有 t1、t2 和 t3 这 3 张 表 ， 需 要 对 
这 3 张 表 进行 JOIN 操作 ， 并 且 根 据 条 件 过 滤 结 果 ， 则 相关 的 JOIN 语句 如 下 : 

SELECT * FROM t1 INNER JOIN t2 ON P1(t1，t2) INNER JOIN t3 ON P2(t2, t3) WHERE P(t1, t2, t3) 


上 面 的 P1(t1, t2) 和 P2(t2, t3) 表 示 连 接 条 件 , P(t1, t2, t3) 表 示 WHERE 条 件 ， 其 形式 类 似 于 C1(t1) 
AND C2(t2) AND C3(t3)。 我 们 假设 表 t3 没 有 可 以 利用 的 索引 ， 也 就 是 说 在 表 t3 中 查询 的 记录 必须 
进行 全 表 扫 描 。Nest Loop Join 算 法 处 理 该 ]OIN 语 句 的 盆 码 如 下 : 


1. for each row in t1 match C1(t1) { 
23 for each row in t2 match P1(t1, t2) and C2(t2) { 
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3. for each row in t3{ // 对 表 t3 进 行 全 表 扫 描 
4. if match P2(t2，t3) and C3(t3) 

5. r := t1|t2|t3 

6. send r to client 

7. } 

8. } 

9.} 


伪 码 第 1 行 中 , 每 次 从 表 t1 中 取出 一 条 满足 WHERE 查 询 条 件 的 记录 , 我 们 假设 该 记录 为 t1_row， 
将 t1_row 传 给 内 层 循环 。 查 询 条 件 C1(t1) 的 严格 程度 〈 条 件 越 严格 就 能 够 过 滤 掉 更 多 的 记录 ) 将 
直接 决定 内 层 循环 执行 的 次 数 。 如 果 C1(t1) 条 件 非常 严格 ， 例 如 是 类 似 于 WHERE id = constantiX 
样 的 精确 匹配 ， 如 有 果 匹 配 的 记录 只 有 一 行 或 者 几 行 , 那么 内 层 循环 只 需要 执行 一 次 或 者 儿 次 , 这 
将 会 大 大 减少 查询 的 执行 时 间 。 


伪 码 第 2 行 用 于 从 表 t2 中 取出 一 条 满足 连接 条 件 P1(t1，t2) 和 WHERE 查 询 条 件 C2(t2) 的 记录 ， 
我 们 假设 该 记录 为 t2_row, 将 t1 row 和 t2_row 传 给 下 一 个 内 层 循环 。 例 如， 当 连 接 条 件 P1(t1, t2) 
的 形式 为 t1.id = t2.id 时 ， 假 如 外 层 循环 传 过 来 的 t1_row 中 id 字段 t1_row.id 的 值 为 5， 此 时 我 们 
会 去 表 t2 中 查询 id 字段 的 值 为 5 的 记录 ， 并 且 检 查 该 记录 是 否 满足 HERE 查 询 条 件 C2(t2) ， 如 果 满 
足 ， 则 将 其 和 t1_row 一 起 传 给 下 一 个 内 层 循环 ， 和 否则 检查 表 t2 中 下 一 条 id 字段 的 值 为 5 的 记录 是 
否 满足 查询 条 件 C2(t2)。 


伪 码 第 3 到 第 7 行 中 ,由 于 表 t3 没 有 可 以 利用 的 索引 ， 所 以 需要 扫描 表 中 的 所 有 记录 ， 对 于 满 
足 连 接 条 件 P2(t2，t3) 和 查询 条 件 C3(t3) 的 记录 ,将 连接 结果 发 送 给 客户 端 。 其 中 r := t1|t2|t3 
表示 表 t1 的 行 、 表 t2 的 行 以 及 表 t3 的 行 组 成 的 行 记录 。 


9-7 给 出 了 Nest Loop Join 算 法 执行 以 上 JOIN 语句 的 流程 。 


读 取 一 行 满足 查询 
条 件 C1(t1) 的 记录 
t1 t1 row aera 
~ 读 取 一 行 满足 连接 
条 件 P1(t1，t2) 和 查 
t2 询 条 件 C2(t2) 的 记录 


/ 
Ss t2_row pepe = x 
- 扫描 表 t3 中 的 每 行 记录 ， 如 果 满 
足 连 接 条 件 P2(t2，t3) 和 查询 条 
3 | 华人 3)， 将 连接 的 结果 发 送 给 
端 


j 
iid meet cata) fh oe 7“ 
{i WR 1(t1)H: 
记录 =a z Po ee 
从 表 t2 读 取 下 一 行 满足 客户 端 


连接 条 件 P1(t1，t2) 和 查 
询 条 件 C2(t2) 的 记录 


图 9-7 Nest Loop Join 算 法 
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9.5.3 Block Nest Loop Join 算 法 


由 于 Nest Loop Join 算 法 每 次 只 从 外 层 循环 读 取 一 条 记录 传人 到 内 层 循环 中 , 这 会 导致 内 层 循 
环 中 表 的 记录 被 读 取 的 次 数 非常 多 。 回 到 上 一 节 的 例子 中 ， 假 如 表 t1 满 足 查询 条 件 的 记录 有 10 
条 ， 也 就 是 说 最 外 层 的 循环 需要 执行 10 次 ， 我 们 又 假设 对 于 从 外 层 循环 传人 的 表 t1 的 每 条 记录 ， 
表 t2 中 都 有 10 条 满足 连接 条 件 和 查询 条 件 的 记录 ,那么 可 以 计算 出 对 表 t3 进 行 全 表 扫 描 ( 前面 假 
设 t3 没 有 可 以 利用 的 索引 ) 的 次 数 为 100 次 。 


Block Nest Loop Join 算 法 是 对 Nest Loop Join 算 法 的 改进 ， 该 算法 使 用 连接 缓冲 区 来 存储 连接 
的 中 间 结 果 , 以 达到 减少 内 层 循环 中 表 的 读 取 次 数 的 目的 。 我 们 继续 使 用 上 一 节 中 的 例子 来 分 析 
Block Nest Loop Join 算 法 的 执行 过 程 ( 如 图 9-8 所 示 )， 下 面 给 出 了 该 算法 处 理 例 子 中 JOIN 语句 的 
伪 代 码 : 


1. for each row in t1 match C1(t1) { 

2 for each row in t2 match P1(t1, t2) and C2(t2) { 

3 store used columns from t1, t2 in join buffer 

4 if buffer is full { 

5. for each row in t3 { // 对 表 t3 进 行 全 表 扫 描 

6. if row match C3(t3) 

7 for each t1, t2 combination in join buffer { 
8 if row match P2(t2, t3) and C3(t3) 

9 r := t1|t2|t3 

1 send r to client 


Oe « a 


11. } 


13. empty buffer 


17.if join buffer is not empty { 
18. for each row in t3 { // 对 表 t3 进 行 全 表 扫 描 


19. if row match C3(t3) 

20. for each t1, t2 combination in join buffer { 
21. if row match P2(t2, t3) 

22. r := t1|t2|t3 

23. send r to client 

24. } 

25. } 

26.} 


伪 码 第 1] 行 到 第 3 行 中 , 从 表 t1 读 取 满 足 查询 条 件 的 记录 ,与 表 t2 中 满足 连接 条 件 和 查询 条 件 
的 记录 进行 连接 操作 ， 将 结果 存储 在 连接 缓冲 区 中 。 


伪 码 第 4 行 到 第 14 行 中 ， 如 果 连 接 缓冲 区 满 了 ， 从 表 t3 中 读 取 一 行 记录 ， 检 查 是 否 满足 查询 
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条 件 , 如 果 满 足 , 将 该 记录 与 连接 缓冲 区 中 的 每 一 行 记录 进行 连接 条 件 检查 , 如 果 满 足 连接 条 件 ， 
将 它们 作为 连接 的 一 条 结果 发 送 给 客户 端 ,循环 这 个 过 程 ， 直 到 读 取 了 表 t3 的 所 有 记录 。 最 后 清 
空 连接 缓冲 区 ， 继 续 执行 外 层 循 环 。 


伪 码 第 17 行 到 第 26 行 用 于 处 理 连接 缓冲 区 中 剩余 的 数据 。 


ta 根据 查询 条 件 和 连接 条 件 对 表 t1 和 表 t2 t2 
中 满足 条 件 的 记录 进行 连接 操作 ， 将 结果 
[7 (中 间 结果 ) 存 入 连接 缓冲 区 中 [7 
连接 缓冲 区 B3 
每 次 读 取 表 t3 的 一 行 记录 ， 循 环 Y 
检查 连接 缓冲 区 中 的 所 有 行 ， 
如 果 满 足 连接 条 件 P2(t2，t3) 
和 查询 条 件 C3(t3) ， 将 连接 的 
结果 发 送 给 客户 端 
客户 端 


图 9-8 Block Nest Loop Join 算 法 


回 到 本 节 开 始 的 那个 例子 ,如 果 表 t1 包 含 10 条 满足 查询 条 件 的 记录 ,又 假设 对 于 从 外 层 循 环 
传人 的 表 t1 的 每 条 记录 ， 表 t2 中 都 有 10 条 满足 连接 条 件 和 查询 条 件 的 记录 ,那么 表 t1 和 表 t2 进 行 
JOIN 操作 的 结果 包含 100 条 记录 。 假 设 连接 缓冲 区 能 够 存储 100 条 记录 , 那么 只 需要 对 表 t3 进 行 一 
次 全 表 扫 描 就 能 够 得 到 最 终 的 结果 。 与 Nest Loop Join 算 法 扫描 100 遍 相 比 ， 这 个 算法 的 效率 得 到 
了 明显 的 提升 。 


在 MySQL 上 ， 我 们 可 以 使 用 SELECT @@optimizer switch 命令 来 查看 Block Nest Loop Join 算 法 
是 否 被 开启 ， 其 中 block_nested_ loop=on 表 示 Block Nest Loop Join 算 法 被 启用 : 


mysql> SELECT @@optimizer_switch; 


index_merge=on, index_merge_union=on, index_merge_sort_union=on, index_merge_intersection=on, engine_c 9 
ondition_pushdown=on, index_condition_pushdown=on,mrr=on,mrr_cost_based=on, block_nested_loop=on, bat 
ched_key_access=off,materialization=on, semijoin=on, loosescan=on, firstmatch=on, subquery_materializa 
tion_cost_based=on,use_index_extensions=on 


1 row in set (0.00 sec) 
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此 外 , 通过 设置 参数 join_buffer_size 的 值 可 以 指定 连接 缓冲 区 的 大 小 。 假设 5 为 连接 缓冲 区 
中 一 条 记录 的 大 小 ( 表 t1 的 行 和 表 t2 的 行 连接 后 的 大 小 )， 而 5 是 表 t1 和 表 t2 连接 结果 的 总 条 数 ， 
那么 表 t3 被 扫描 的 次 数 为 (5 * C) / join_buffer size + 1。 我 们 可 以 看 到 ， 当 连接 缓冲 区 增 大 
之 后 ， 会 减少 表 t3 的 扫描 次 数 ， 当 join_buffer_size 增 加 到 大 于 s * C 的 大 小 后 ， 就 不 能 减少 表 t3 
的 扫描 次 数 了 。 


mysql> SHOW VARIABLES LIKE "join buffer size"; 


+---------------------------- +------------------- 十 
| Variable name | Value | 
+---------------------------- +------------------- 十 
| join_buffer_size | 262144 | 
+---------------------------- +------------------- 十 


1 row in set (0.00 sec) 


9.5.4 Batched Key Access Join 算 法 


MySQL/MariaDB 通 常 使 用 Nest Loop Join 算 法 来 对 两 张 表 或 者 多 张 表 进行 JOIN 操作 ， 也 就 是 
说 每 次 从 第 一 张 表 读 取 一 条 满足 查询 条 件 的 记录 , 根据 连接 条 件 在 第 二 张 表 上 使 用 索引 ( 如 果 存 
在 可 用 的 索引 ) 查询 匹配 的 记录 。 这 种 情况 下 ， 如 果 第 一 张 表 有 1000 条 满足 查询 条 件 的 记录 , BB 
么 会 在 第 二 张 表 上 执行 1000 次 查询 操作 , 这 1000 次 查询 的 键 值 很 可 能 是 随机 的 ， 当 第 二 张 表 的 数 
据 没有 完全 在 内 存 中 时 ， 这 1000 次 查询 将 会 导致 多 次 随机 IO 的 发 生 ， 从 而 导致 性 能 下 降 。 


MySQL 5.6 和 MariaDB 5.5 针 对 这 种 情况 对 原 有 的 连接 算法 进行 了 优化 , 优化 后 的 算法 每 次 从 
第 一 张 表 中 读 取 多 条 满足 查询 条 件 的 记录 放 人 缓冲 区 中 , 然后 将 这 些 记录 的 键 值 进 行 打包 , 根据 
连接 条 件 去 第 二 张 表 中 查询 。 这 样 存储 引擎 就 会 使 用 MRR (Multi Range Read ) 接口 来 处 理 该 请 
求 , 减少 了 随机 VO 的 发 生 。MariaDB 还 做 了 更 深 一 步 的 优化 , 在 打包 键 值 进行 查询 时 会 对 这 些 键 
值 进行 排序 。 这 种 优化 后 的 算法 叫做 Batched Key Access Join 算 法 。 


9.5.5 Hash Join 算 法 


MySQL 只 支持 前 面 介绍 的 Nest Loop Join, Block Nest Loop Join 和 Batched Key Access Join 这 
几 种 算法 ， 而 MariaDB 除 了 文 持 这 几 种 算法 外 ， 还 为 等 值 连接 引入 了 一 种 新 的 JOIN 算法 一 一 Hash 
Join 算 法 。 

Hash Join 算 法 主要 分 为 两 步 : 创建 哈 希 表 以 及 在 哈 希 表 中 查找 。 下 面 我 们 介绍 下 该 算法 的 具 
体 执行 流程 。 

假设 我 们 要 对 表 A 和 表 B 这 两 个 表 进 行 JOIN 操 作 ， 则 Hash Join 算 法 首先 选取 一 张 数据 量 比较 小 
的 表 ( 例如 表 A )， 在 内 存 中 建立 一 张 哈 希 表 ， 将 表 A 的 记录 映射 到 该 哈 希 表 内 ， 然 后 遍历 表 B 中 的 
每 条 记录 ， 去 哈 希 表 中 查询 ， 看 是 否 有 匹配 连接 条 件 的 记录 ， 如 图 9-9 所 示 。 
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哈 希 表 存 储 了 表 A 
的 所 有 记录 

ee 扫描 表 B， 对 于 表 B 中 的 每 条 记录 ， 

全 希 表 去 哈 希 表 中 查询 是 否 存在 满足 连接 表 B 


条 件 的 


SEE r 


图 9-9 Hash Join 算 法 
Hash Join 算 法 比较 适合 在 以 下 几 种 场景 下 使 用 : 


口 一 张 小 表 和 一 张大 表 进 行 连接 操作 ; 
口 没有 可 以 利用 的 索引 ; 
口 连接 结果 集 比 较 大 。 


9.5.6 Sort Merge Join 算 法 
Sort Merge Join 算 法 是 另 一 种 比较 流行 的 连接 算法 ， 该 算法 主要 由 以 下 几 个 步骤 组 成 。 


(1) 扫描 所 有 参与 连接 的 表 。 
(2) 对 第 (1) 步 扫描 的 结果 进行 排序 。 
(3) 进行 归并 连接 。 


在 归并 的 过 程 中 ， 从 最 小 值 开始 同时 遍历 两 个 排 好 序 的 集合 ， 当 遇 到 A 集合 的 某 个 子 集 和 B 
集合 的 子 集 相等 时 , 计算 它们 的 笛 卡 尔 积 , 并 将 其 作为 输出 结果 ， 当 遍历 完 两 个 集合 或 者 遍历 完 
了 一 个 集合 并 且 男 一 个 集合 剩余 的 元 素 都 大 于 第 一 个 集合 的 最 大 值 时 ,结束 归并 过 程 。 图 9-10 给 
出 了 对 已 排序 的 两 个 集合 做 归并 连接 的 过 程 。 


Sort Merge Join 算 法 最 大 的 开销 在 于 对 数据 集 进 行 排序 ， 如 果 数 据 集 本 来 就 是 有 序 的 ， 该 算 
法 比 其 他 的 连接 算法 会 有 一 定 的 优势 。 
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四 四 四 四 


[= 上- 


图 区 


(c) (d) 
图 9-10 ”归并 过 程 


9.6 小 结 


本 章 中 ， 我 们 介绍 了 MariaDB/MySQL 中 使 用 的 一 些 数据 结构 以 及 复杂 查询 ORDER BY 和 JOIN 
的 算法 实现 。 下 面 我 们 对 这 些 内 容 做 个 简短 的 回顾 。 


口 B+ 树 是 为 磁盘 或 其 他 直接 存 取 辅助 存储 设备 而 设计 的 一 种 平衡 查找 树 。B+ 树 与 红 黑 树 和 
其 他 平衡 二 又 树 类 似 , 但 在 降低 磁盘 的 IO 次 数 方面 做 得 更 好 。B+ 树 在 对 磁盘 IO 非常 敏感 
的 系统 中 得 到 了 非常 广泛 的 应 用 ， 例 如 文件 系统 和 数据 库 系 统 。 

口 通常 情况 下 ， 当 收 到 ORDER BY 请 求 时 ，MariaDB/MySQL 采 用 fesort 算 法 对 结果 集 按照 指 
定 的 字段 进行 排序 ， 然 后 返回 给 客户 端 ， 当 满 足 某 种 条 件 时 ，MariaDB/MySQL 会 利用 数 
据 库 的 索引 (这 里 指 的 是 B+ 树 类 型 的 索引 ) 具有 一 定 的 顺序 这 一 特性 ， 按 照 索引 的 顺序 
将 结果 返回 给 客户 端 ， 这 样 就 省 略 了 对 结果 集 的 排序 过 程 ， 加 快 了 查询 的 响应 速度 。 

口 MySQL 只 支持 Nest Loop Join, Block Nest Loop Join 和 BatchedKey Access Join 这 几 种 算法 。 
Nest Loop Join 算 法 每 次 从 最 外 层 的 表 中 读 取 一 行 匹 配 查 询 条 件 的 记录 ,传递 给 下 一 个 内 
在 的 JOIN 循 环 ， 以 此 类 推 。Block Nest Loop Join 算 法 是 对 Nest Loop Join 算 法 的 改进 ， 该 算 
法 使 用 连接 缓冲 区 来 存储 连接 的 中 间 结 果 ， 以 达到 减少 内 层 循 环 中 表 的 读 取 次 数 的 目的 。 


MariaDB 除 了 支持 上 面 提 到 的 几 种 算法 外 ， 还 支持 Hash Join 算 法 ， 该 算法 通过 对 表 记 录 建 立 
哈 希 表 ， 提 高 连接 过 程 中 的 查询 速度 。 


分 布 式 数据 库 


随 着 数据 库 应 用 的 不 断 发 展 , 数据 的 规模 也 在 不 断 扩大 , 传统 的 集中 式 数据 库 在 容量 、 性 能 、 
可 扩展 性 等 方面 都 遇 到 了 问题 ， 分布 式 数据 库 随 之 产生 。 分 布 式 数据 库 利 用 计算 机 网 络 将 物理 上 
分 散 的 多 个 数据 库 单元 连接 起 来 形成 的 一 个 逻辑 上 统一 的 数据 库 。 


本 章 的 内 容 主 要 包括 : 


口 分 布 式 数据 库 概 要 
口 数据 的 分 片 方式 
口 分 布 式 数据 库 实践 


京东 分 布 式 数 据 库 架 构 


10.1 分 布 式 数 据 库 概 要 
本 节 中 , 我 们 先 介 绍 分 布 式 数 据 库 的 概念 及 其 特点 , 然后 介绍 分 布 式 数据 库 中 的 一 些 技术 难点 。 


10.1.1 分 布 式 数据 库 的 特点 
分 布 式 数据 库 是 数据 库 系 统 与 计算 机 网 络 系统 相 结 合 的 产物 ， 具 有 以 下 几 个 鲜明 的 特点 。 


口 物理 分 布 性 。 分 布 式 数据 库 的 数据 不 是 存储 在 一 个 结 点 上 ， 而 是 分 散 存储 在 由 计算 机 网 
络 连接 起 来 的 多 个 结 点 上 ， 而 这 对 于 数据 库 的 使 用 者 来 说 是 不 可 见 的 。 
口 逻辑 整体 性 。 虽 然 分 布 式 数据 库 的 数据 物理 上 是 分 布 在 不 同 的 结 点 上 ， 但 这 些 分 散 的 数 
据 在 逻辑 上 确 是 一 个 整体 ， 物 理 的 分 布 性 对 于 用 户 来 说 是 不 可 见 的 。 在 用 户 看 来 ， 使 用 
分 布 式 数据 库 和 使 用 集中 式 数 据 库 系统 是 完全 一 样 的 ， 没 有 任何 区 别 。 


分 布 式 数据 库 系统 是 在 集中 式 数 据 库 系统 的 基础 上 发 展 而 来 的 ， 与 集中 式 数据 库 系统 相 比 ， 
具有 以 下 几 个 优点 。 


O 较 大 的 灵活 性 和 可 扩展 性 。 在 分 布 式 数据 库 系统 中 ， 容 量 和 系统 处 理 能 力 的 扩充 是 非常 
简单 方便 的 。 
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口 更 好 的 经 济 性 。 与 一 个 使 用 大 型 计算 机 支持 一 个 大 型 的 数据 库 系统 相 比 ， 使 用 廉价 的 普 
通 机 器 组 成 一 个 分 布 式 的 数据 库 往 往 具 有 更 高 的 性 价 比 。 

口 物理 表 更 小 ， 真 正 的 并 行 ， 效 率 更 好 。 在 分 布 式 数据 库 中 执行 一 条 查询 语句 时 ， 该 语句 
会 被 拆 分 成 多 个 子 查 询 分 发 到 多 人 台 物 理 机 器 上 ， 同 时 并 发 执行 。 与 在 一 张大 表 中 查询 数 
据 相 比 ， 我 们 查询 的 表 的 数据 量 更 小 ， 并 且 查 询 是 在 多 台 机 器 上 并 发 执行 的 。 


10.1.2 ”系统 的 扩展 方式 


通常 ， 系 统 的 扩展 方式 包括 单机 垂直 扩展 (scale-up) 和 多 机 水 平 扩展 ( scale-out ) 两 种 ， 这 
两 种 方式 都 有 自己 的 优点 和 缺点 ， 上 有 具体 如 下 所 示 。 


1. 单机 垂直 扩展 
所 谓 单 机 垂直 扩展 ， 就 是 购买 或 更 换 更 加 高 端的 机 器 ,使 用 更 快 的 存储 设备 ， 提 高 单 台 机 吕 
的 性 能 。 
这 种 方式 的 扩展 具有 一 个 明显 优点 : 业务 不 用 修改 代码 。 因 为 仅仅 是 使 用 更 好 的 硬件 来 提高 
单 台 数据 库 的 性 能 ， 对 于 业务 来 说 没有 任何 的 改变 。 
同时 ， 单 机 垂直 扩展 存在 以 下 几 个 明显 的 缺点 。 
口 成 本 巨大 。 通 常 ， 性 能 更 好 的 机 器 或 者 存储 比 普通 的 服务 器 或 存储 在 价格 上 会 高 出 很 多 。 
O 扩展 性 不 好 。 在 进行 单机 垂直 扩展 之 后 ， 虽 然 能 够 满足 当前 的 需求 ， 但 随 着 业务 的 增长 ， 
不 久 的 将 来 义 会 面临 系统 到 达 笨 有 颈 的 问题 。 
2. 多 机 水 平 扩展 


所 谓 多 机 水 平 扩展 , 就 是 通过 添加 廉价 的 普通 机 器 到 原 有 的 系统 中 来 提高 原 有 系统 的 容量 和 
处 理 能 力 。 这 种 方式 的 扩展 具有 如 下 几 个 优点 。 


口 成 本 小 。 由 于 我 们 是 通过 添加 廉价 的 普通 机 器 到 原 有 的 系统 中 来 扩展 原 有 系统 的 能 

所 以 这 种 方式 具有 常量 的 边际 成 本 。 

O 较 好 的 扩展 能 力 。 理 论 上 ， 这 种 方式 的 扩展 是 没有 限制 的 ， 不 需要 担心 会 再 次 遇 到 系统 
瓶 宽 的 问题 。 

同时 ， 这 种 方式 的 扩展 也 具有 几 个 缺点 。 

口 第 一 次 重 构 需要 付出 成 本 。 当 我 们 从 单机 系统 扩展 到 分 布 式 的 多 机 系统 时 ， 需 要 做 一 些 

工作 ， 使 分 布 式 系统 具有 和 单 台 系 统 同样 的 功能 。 

O 完成 相同 功能 比 单机 扩展 付出 的 成 本 更 高 。 在 分 布 式 多 机 系统 中 实现 一 个 功能 ， 不 仅 要 

保证 该 功能 的 局 部 可 用 性 和 一 致 性 ， 同 时 需要 保证 这 一 功能 的 全 局 可 用 性 和 一 致 性 。 
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10.1.3 “分布 式 数据 库 中 的 技术 难点 


分 布 式 数据 库 在 物理 上 是 分 散 的 ,而 在 逻辑 上 却 是 统一 的 , 这 一 特性 决定 了 在 实现 分 布 式 数 
据 库 系统 时 将 会 面临 一 些 挑战 。 


口 分 布 式 数据 库 的 查询 处 理 。 分 布 式 数据 库 需 要 向 用 户 提供 一 个 统一 的 数据 访问 接口 。 对 于 
用 户 来 说 , 使 用 分 布 式 数 据 库 和 集中 式 数据 库 没 有 任何 区 别 ,好 像 所 有 的 数据 都 存储 在 单 
台 机 器 上 一 样 。 但 是 ,实际 数据 是 分 布 在 不 同 的 机 器 上 ， 这 使 得 在 查询 处 理 的 过 程 中 需要 
在 各 个 结 点 间 进 行 通信 ， 需 要 对 各 个 结 点 的 查询 结果 进行 收集 甚至 进行 进一步 运算 。 

口 分 布 式 事务 。 由 于 在 分 布 式 数据 库 中 逻辑 上 的 一 个 表 可 能 由 分 布 在 不 同 机 需 上 的 多 个 物 
理 表 组 成 。 分 布 式 事务 不 仅 要 保证 在 单个 结 点 上 事务 的 ACID 特性 ， 而 且 要 保证 全 局 的 
ACID 特性 。 对 于 分 布 式 数 据 库 来 说 ， 分 布 式 事 务 是 一 个 难 解 决 的 问题 ， 需 要 进行 复杂 的 
一 致 性 和 完整 性 校 验 。 


10.2 ”数据 的 分 片 方式 


数据 分 片 也 叫 数据 分 割 ， 是 分 布 式 数据 库 的 特征 之 一 。 在 分 布 式 数 据 库 中 , 分 散 的 物理 表 是 
通过 全 局 的 逻辑 表 按 照 某 种 方式 分 割 而 来 的 。 数 据 的 分 片 方式 主要 包括 水 平分 片 、 垂 直 分 片 和 混 
合 分 片 3 种 ， 如 图 10-1 所 示 。 


(c) 混合 分 片 
图 10-1 数据 分 片 方式 
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口 水 平分 片 。 也 叫 按 行 分 片 , 将 关系 f 按 行 分 为 若干 子 集 r1,r2,...m， 其 中 每 个 子 集 称 为 一 个 

分 片 。 水 平分 片 通常 在 数据 量 非常 大 的 时 候 使 用 ,这 种 方式 的 分 片 没有 任何 的 数据 元 余 。 

口 垂直 分 片 。 也 叫 按 列 分 片 ， 将 关系 f 按 列 分 为 若干 属性 子 集 , 每 个 子 集 称 为 一 个 垂直 分 片 。 
这 种 分 片 方式 比较 适用 于 数据 库 中 表 的 属性 特别 多 ， 也 就 是 包含 的 列 特别 多 ， 而 且 我 们 
的 查询 只 需要 返回 很 少 的 部 分 属性 时 。 垂 直 分 片 需要 在 所 有 的 子 表 中 都 记录 主键 信息 ， 
也 就 是 说 这 种 分 片 方式 会 产生 一 定 的 数据 宛 余 。 

口 混合 分 片 。 这 种 分 片 方式 对 数据 按照 某 种 分 片 方式 分 片 之 后 ， 再 对 数据 子 集 按 照 另 一 种 

分 片 方式 继续 分 片 。 


10.3 分布 式 数 据 库 实 践 一 京东 分 布 式 数 据 库 系 统 


随 着 业务 的 高 速 发 展 , 京东 对 基础 研发 的 依赖 也 变 得 越 来 越 强烈 , 京东 分 布 式 数 据 库 就 是 众 
多 基础 设施 中 的 一 项 。MySQL 作 为 一 款 优秀 的 开源 的 数据 库 管理 系统 ， 在 各 大 互联 网 公司 应 用 
得 非常 广泛 , 但 一 直 以 来 官方 并 没有 提供 一 套 真正 成 熟 的 分 布 式 数据 库 系 统 的 解决 方案 , 所 以 各 
个 公司 在 面临 自身 的 业务 需求 时 ， 实 现 的 分 布 式 数 据 库 系统 也 各 不 相同 。 


分 布 式 数 据 库 实现 方案 总 体 可 以 划分 为 两 类 。 一 类 是 客户 端的 方案 , 在 使 用 这 类 方案 时 需要 
应 用 程序 使 用 专门 开发 的 客户 端 ,对 于 一 个 已 有 的 应 用 程序 来 说 ,要 使 用 这 类 分 布 式 数据 库 方案 ， 
可 能 会 涉及 一 些 代 码 的 改动 甚至 是 一 些 程序 逻辑 上 的 调整 。 男 一 类 是 代理 (proxy) 的 方案 ,在 
使 用 这 类 方案 时 ， 应 用 程序 不 需要 做 改动 ， 可 以 直接 使 用 原生 的 客户 端 , 但 是 性 能 上 可 能 会 打折 
扣 。 因 为 数据 包 从 客户 端 到 代理 结 点 ， 然 后 再 从 代理 结 点 再 到 MySQL， 中 间 多 了 一 次 网 络 IO。 
鉴于 京东 的 业务 现状 , 我 们 采用 了 代理 方案 , 让 现 有 的 应 用 程序 尽 可 能 少 做 改动 ， 以 达到 快速 将 
现 有 业务 切换 到 分 布 式 数 据 库 系 统 上 的 目的 。 


10.3.1 京东 分 布 式 数 据 库 系统 架构 


京东 分 布 式 数 据 库 系 统 的 整体 架构 如 图 10-2 所 示 ， 整 个 系统 可 以 提供 高 可 用 、 高 可 靠 、 可 扩 
展 旦 全 程 运 维 自 动 化 的 服务 。 


整个 系统 主要 包括 以 下 几 个 模块 。 


口 Jproxy (代理 结 点 ) 模块 : MySQL 的 代理 层 ， 兼 容 MySQL 协 议 。 应 用 程序 的 访问 请 求 首 
先 都 会 发 送 给 Jproxy，Jproxy 会 根据 路 由 信息 对 SQL 语句 进行 拆 分 处 理 ， 将 拆 分 后 的 SQL 
语句 发 送 给 后 端 各 个 MySQL 实 例 , 然后 Jproxy 会 将 各 个 MySQL 返 回 的 结果 进行 合并 处 理 ， 
最 终 返回 给 应 用 程序 。 

口 dbAgent 模 块 ;每 个 MySQL 实 例 对 应 一 个 dbAgent, 两 者 部 署 在 同一 台 机 器 上 ,负责 MySQL 
实例 的 启动 、 停 止 、 存 活 、 健 康 状况 监控 以 及 数据 的 高 可 靠 备份 等 相关 管理 工作 。 
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| 应 用 程序 | | 应 用 程序 | 


dbAgent dbAgent dbAgent| dbAgent 


> [æ |< J 


I 
vy 


图 10-2 ”京东 分 布 式 数 据 库 系统 的 架构 


口 Failover 模 块 〈 异 常 处 理 模块 ): 负责 各 个 高 可 用 组 (HA group) 的 故障 切换 、MySQL 实 
例 之 间 关 系 的 初始 化 以 及 后 续 维 护 调整 等 。 

口 Transfer 模 块 〈 迁 移 模 块 ): 负责 对 实例 上 的 数据 进行 迁移 。 

O InitAgent 模 块 〈 初 始 化 模块 ): 主要 用 于 初始 化 环境 ， 包 括 各 种 依赖 的 初始 化 。 

口 Collector 模 块 〈 信 息 采 集 模 块 ): 接收 dbAgent 采 集 的 各 个 实例 的 使 用 状况 ,例如 IO 压力 、 
磁盘 空间 等 。 

O Web API 模 块 : 负责 提供 各 种 运 维 管理 相关 的 API。 

口 Manager 模 块 〈 中 心 管理 模块 ): 这 是 整个 系统 的 核心 决策 模块 ， 负 责 维护 路 由 、 故 障 切 
换 的 决策 、 迁 移 的 控制 及 其 他 各 种 调度 。 


另外 , 整个 系统 使 用 了 消息 队列 将 一 些 耗 时 操作 异步 化 。 此 外 , 它 还 使 用 ZooKeeper 对 MySQL 
实例 的 存活 进行 监控 。 


10.3.2 ”高 可 用 组 的 初始 化 
个 高 可 用 组 是 指 由 一 个 主 库 和 多 个 从 库 构 成 的 集合 , 而 整个 分 布 式 数据 库 系 统 由 多 个 高 可 0 
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用 组 构成 。 当 需要 往 该 系统 中 添加 高 可 用 组 时 ， 可 以 通过 Web API 往 元 信息 数据 库 中 添加 机 器 相 
关 的 信息 ， 然 后 请 求 创建 相关 的 高 可 用 组 。Manager 通 过 消息 队列 获取 到 创建 高 可 用 组 的 请 求 以 
后 ,再 到 元 信息 数据 库 中 获取 相关 的 信息 。 接 着 ,通知 InitAgent 初 始 化 相关 机 器 的 环境 ， 包 括 人 磁 
盘 的 格式 化 、 物 理 卷 和 逮 辑 卷 的 创建 以 及 各 种 依赖 包 的 下 载 ， 比 如 dbAgent、MySQL 以 及 Python 
环境 等 。 


当 机 器 环境 部 署 好 后 ，InitAgent 会 告诉 Manager， 接 着 Manager 通 知 Failover 模 块 去 启动 相 
关 的 MySQL 实 例 并 设置 相关 的 主 从 关系 ， 如 图 10-3 所 示 。 高 可 用 组 的 初始 化 本 身 从 某 种 意义 上 
来 说 也 是 一 次 特殊 的 Failover 处 理 。Failover 模 块 会 通知 dbAgent 将 相关 的 MySQL 实 例 启动 起 来 ， 
设置 好 虚拟 PP， 反馈 给 Manager 说 该 高 可 用 组 已 经 启动 。 在 高 可 用 组 的 整个 初始 化 过 程 中 ， 
Manager 会 将 各 个 状态 写 入 元 信息 数据 库 中 , 所 以 我 们 可 以 明确 地 知道 一 个 高 可 用 组 创建 进行 到 


了 哪 一 步 。 
[ > 
从 库 | | 从 库 


图 10-3 ”高 可 用 组 


10.3.3 ”数据 的 分 片 


当 高 可 用 组 部 署 到 位 以 后 , 应 用 开始 接 入 。 我 们 首先 需要 对 业务 的 库 表 做 一 些 分 析 , 确认 每 
张 表 是 否 需 要 分 片 ， 如 果 需 要 ， 则 需要 知道 分 片 的 主键 是 什么 以 及 需要 分 几 片 。 图 10-4 所 示 是 该 
分 布 式 数据 库 系 统 的 分 片 示意 图 , 其 中 schema 表 示 应 用 使 用 的 数据 库 , 也 就 是 一 个 逻辑 上 的 数据 
库 ，bucket 表 示 一 个 分 片 对 应 的 桶 ， 高 可 用 组 表示 一 个 高 可 用 的 MySQL 主 从 集合 。 针 对 schema 
中 的 tablel1 和 table2 进 行 分 析 ， 其 中 tablel 不 做 分 片 处 理 , 全 部 落 在 bucket1 这 个 桶 上 ，table2 需 要 做 
分 片 处 理 ， 依 次 落 在 bucketl 、bucket2 、bucket3 和 bucket4 这 4 个 桶 上 。 


当 业 务 需 求 分 析 清 楚 以 后 ， 确 认 分 片 主键 以 及 分 片 的 个 数 ， 然 后 通过 Manager 到 相应 高 可 用 
组 的 各 个 实例 上 创建 好 相关 的 库 表 结 构 ， 并 将 路 由 存 到 元 信息 数据 库 中 ， 最 后 将 路 由 推 给 各 个 
Jproxy。 在 库 表 结构 以 及 路 由 关系 配置 好 以 后 ， 应 用 就 可 以 用 原生 的 MySQL 客 户 端 连 接 上 Jproxy 
进行 使 用 ， 接 下 来 所 有 的 操作 就 像 是 操作 单个 MySQL 一 样 。 
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逻辑 数据 库 
[三 人 nl 


图 10-4 数据 的 分 片 


10.3.4 系统 的 高 可 用 性 


每 个 MySQL 高 可 用 组 都 由 一 个 主 库 和 多 个 从 库 组 成 ， 每 个 MySQL 实 例 所 在 的 机 器 上 都 会 有 
一 个 对 应 的 dbAgent。dbAgent 会 监控 每 个 实例 的 健康 状况 ， 并 将 存活 信息 反馈 给 ZooKeeper， 
Manager 模 块 会 通过 ZooKeeper 获 取 到 每 个 高 可 用 组 中 每 个 MySQL 实 例 的 存活 状况 ,如 图 10-5 所 示 。 


图 10-5” ”MySQL 实例 存活 监控 


如 果 Manager 通 过 ZooKeeper 发 现 主 库 可 能 已 经 死亡 ， 此 时 Manager 会 再 次 确认 主 库 实例 是 否 10 
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真 的 已 经 死亡 。 当 Manager 判 定 主 库 为 死亡 状态 时 ，Manager 会 告知 Failover 模 块 去 做 Failover 处 
理 。Failover 模 块 将 通过 与 dbAgent 交 互 ， 将 某 个 slave 提 升 为 master， 然 后 将 其 他 的 slave 作 为 该 新 
提升 的 master 的 slave。 等 Failover 模 块 处 理 成 功 以 后 ，Manager 会 更 新 路 由 信息 ， 并 将 新 的 路 由 信 
息 推送 给 所 有 的 Jproxy。 整 个 过 程 中 的 每 一 步 中 间 状 态 都 会 记录 到 元 信息 数据 库 中 。 


Failover 模 块 可 以 根据 每 个 高 可 用 组 创建 时 人 为 指定 的 机 器 优先 级 ( 例如 以 机 器 性 能 为 依据 
等 ) 来 选择 将 哪个 slave 优 先 提 升 为 master。 但 是 人 为 指定 的 机 器 上 的 MySQL 实 例 未 必 拥 有 最 新 的 
数据 ， 有 可 能 是 落后 于 其 他 slave 实 例 的 ， 此 时 需要 将 所 有 的 slave 都 与 原 master 显 式 地 断 开 ， 然 后 
将 待 提升 的 slave 依 次 作为 其 他 slave 实 例 的 slave， 从 而 保证 待 提升 的 slave 上 拥有 最 新 的 数据 。 然 
后 再 将 该 slave 提 升 为 master 角 色 ， 最 后 将 其 他 slave 都 设置 为 该 实例 的 slave。 主 从 之 间 的 复制 是 基 
于 GTID 的 ， 所 以 整个 过 程 是 相对 简单 可 探 的 。 如 果 高 可 用 组 在 创建 的 时 候 没 有 人 为 指定 机 器 优 
先 级 ，Failover 模 块 可 以 从 高 可 用 组 中 选取 一 个 拥有 最 新 数据 的 从 库 作 为 主 库 。 因 为 每 个 高 可 用 
组 都 会 有 一 个 对 应 的 虚拟 忆 ， 所 以 当 新 的 slave 真 正 提 升 为 master 以 后 ,Failover 模 块 还 需要 再 做 一 
些 虚 拟 卫 的 切换 工作 。 图 10-6 所 示 给 出 了 故障 切换 后 的 状态 。 


图 10-6 ”Failover 处 理 过 程 


高 可 用 除了 需要 保证 异常 情况 下 服务 高 可 用 外 , 还 需要 提供 正常 计划 之 中 的 机 器 停机 维护 的 
服务 高 可 用 。 例如 ， 当 某 台 机 器 因为 硬件 有 异常 而 存在 风险 需要 做 下 线 处 理 时 ， 如果 该 机 器 上 的 
MySQL 实 例 是 slave 角 色 ， 则 相对 比较 容易 处 理 : Manager 会 通知 Failover 模 块 将 对 应 的 实例 停止 ， 
更 新 路 由 信息 并 告知 Jproxy,， 相 应 的 机 器 便 可 以 下 线 了 。 但 如 果 需 要 停机 的 机 器 上 的 MySQL 实 例 
是 master 角 色 ， 则 需要 先 通 知 Jproxy 表 示 需 要 做 一 次 人 工 切 换 ， 使 涉及 的 所 有 催 辑 数据 库 仅 提供 
只 读 服 务 ， 然 后 再 按照 类 似 master 出 异常 的 流程 来 处 理 ， 从 多 个 slave 中 选 出 一 个 slave 提 升 为 
master， 然 后 把 其 他 的 slave 作 为 新 的 master 的 slave,， 更 新 路 由 之 后 再 告知 Jproxy, 使 之 前 涉及 的 逻 
辑 数据 库 恢复 读 写 服务 ， 最 后 再 将 该 机 器 下 线 。 


除了 将 机 器 下 线 以 外 , 还 需要 能 支持 向 高 可 用 组 中 添加 新 机 带 的 需求 。 如 果 需 要 往 高 可 用 组 
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中 添加 一 个 新 的 实例 ，Manager 首 先 会 通过 InitAgent 到 新 添加 的 机 器 上 初始 化 好 相关 环境 ， 之 后 
Manager 再 通知 Failover 模 块 去 启动 MySQL 实 例 以 及 设置 好 对 应 的 主 从 关系 。 


上 述 几 种 场景 不 管 是 正常 情况 还 是 异常 情况 , 除 添 加 一 个 从 库 的 情况 外 , 其 他 都 属于 主 从 切 
换 的 情况 , 但 仅仅 提供 上 述 支 持 还 是 不 够 的 , 因为 线 上 很 多 时 候 可 能 会 出 现 主 从 实例 本 身 都 是 存 
活 的 情况 ， 但 是 主 从 复制 却 延迟 了 ， 此 时 需要 人 工 介 入 处 理 。 如 图 10-7 所 示 ， 每 个 dbAgent 会 采 
集 对 应 实例 的 状态 信息 ， 然 后 上 传 给 Collector 模 块 ，Collector 会 对 各 个 实例 的 状态 信息 进行 整理 
汇总 ， 然 后 将 一 些 重 要 的 信息 存 人 元 信息 数据 库 中 ,包括 主 从 复制 延迟 等 信息 。Web API 模 块 会 
有 定时 任务 扫描 元 信息 数据 库 中 的 记录 ， 同 时 会 提供 相应 的 API 注 册 到 京东 的 统一 监控 系统 中 ， 
如 果 发 现 有 异常 ， 统 一 A 介入 处 理 。 


dbAgent 


dbAgent dbAgent 


Web API <—» fe] 


图 10- 7 监控 状况 监控 


10.3.5 “系统 的 可 扩展 性 


对 于 一 个 分 布 式 系统 来 说 , 除了 保证 高 可 用 性 以 外 ,还 需要 提供 良好 的 可 扩展 性 。 前 面 提 到 
过 ， 系 统 的 扩展 主要 包括 垂直 扩展 和 水 平 扩展 两 种 。 垂 直 扩 展 一 般 是 指 当 某 台 机 器 达到 瓶颈 时 ， 
例如 单 台 机 器 8TB 的 硬盘 空间 不 够 了 ， 就 考虑 增加 到 16TB ， 如 果 16 核 的 CPU 是 瓶颈 ， 就 考虑 改 用 
32 核 的 CPU， 简 单 地 说 就 是 通过 改善 单机 的 性 能 来 应 对 业务 上 的 压力 。 对 于 很 多 业务 来 说 ， 采 用 
垂直 扩展 或 许可 以 支撑 一 段 时 间 , 但 是 对 于 规模 比较 大 ,特别 是 增长 比较 明显 的 业务 , 垂直 扩展 
并 不 能 解决 根本 问题 ,此 时 就 需要 考虑 采用 水 平 扩展 方式 了 。 水 平 扩展 一 般 是 指 当 系统 遇 到 瓶颈 
的 时 候 , 通过 往 系 统 中 添加 新 的 普通 机 器 来 提高 系统 的 支撑 能 力 ， 如 果 业 务 后 续 继续 增长 ,就 继 
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续 添 加 新 的 机 融 。 所 以 对 于 一 个 分 布 式 系统 来 说 , 支持 水 平 扩展 的 扩展 方式 更 符合 可 持续 发 展 的 
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要 支持 水 平 扩展 的 扩展 方式 ,分 布 式 数据 库 系统 首先 需要 支持 分 片 , 在 这 个 基础 上 支持 迁移 ， 
最 后 是 支持 分 片 的 拆 分 。 分 片 在 之 前 章节 中 已 经 介绍 过 了 ， 一 个 schema 中 的 表 会 被 拆 分 到 多 个 
bucket 中 ， 每 个 bucket 就 是 一 个 分 片 。 在 应 用 刚 接 入 的 时 候 , 虽然 分 了 多 个 bucket, 但 是 可 能 数据 
量 比较 小 , 为 了 充分 利用 硬件 资源 , 我 们 通常 会 将 把 这 些 bucket 放 在 一 个 或 者 少数 几 个 的 MySQL 
实例 上 。 随 着 应 用 数据 的 进一步 增加 ， 当 单 台 MySQL 实 例 所 在 机 器 上 的 磁盘 较 满 或 者 因为 负载 
较 高 导致 响应 较 慢 时 ， 就 可 以 考虑 将 该 实例 中 的 bucket 迁 移 到 新 的 MySQL 实 例 中 。 在 图 10-8 所 示 
的 迁移 示意 图 中 ， 一 个 应 用 分 为 4 片 ， 分 别 为 bucketl 、bucket2 、bucket3 和 bucket4 ， 当 bucket1 和 
bucket2 所 在 的 高 可 用 组 中 的 实例 磁盘 空间 剩余 较 少 时 ， 可 以 往 整 个 系统 中 添加 一 个 新 的 高 可 用 
组 ， 然 后 将 bucket2 从 之 前 的 高 可 用 组 中 迁移 到 新 的 高 可 用 组 中 。 这 种 方式 已 经 可 以 支撑 绝 大 多 
数 业务 在 很 长 时 间 内 的 持续 发 展 了 。 例 如 ， 一 个 新 的 应 用 接 入 时 ， 预 分 片 的 时 候 划 分 为 128 片 ， 
在 一 开始 的 时 候 , 这 128 片 可 能 只 是 落 在 4 个 高 可 用 组 上 ， 当 数据 量 不 断 增 大 以 后 ,可 以 不 断 地 将 
分 片 进行 迁移 ， 做 到 每 一 片 对 应 一 个 高 可 用 组 ， 最 终 落 到 128 个 高 可 用 组 上 。 
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图 10-8 ”迁移 示意 图 


除了 简单 地 将 分 片 从 一 个 高 可 用 组 迁移 到 另 一 个 高 可 用 组 以 外 , 有 些 特殊 的 应 用 可 能 还 需要 
将 已 经 分 片 的 数据 继续 进行 拆 分 ， 例 如 一 个 应 用 原本 分 了 16 片 ， 经 过 几 次 迁移 以 后 ，16 片 已 经 落 
在 了 16 个 高 可 用 组 上 , 但 是 数据 增长 的 还 是 很 快 ， 此 时 就 需要 考虑 将 原 有 的 分 片 进行 拆 分 。 分 片 
拆 分 和 分 片 迁移 类 似 ， 但 略 有 不 同 ， 后 者 是 将 分 片 数据 从 一 个 高 可 用 组 迁移 到 另 一 个 高 可 用 组 ， 
前 者 是 将 分 片 数据 从 一 个 高 可 用 组 拆 分 到 两 个 高 可 用 组 。 分 片 拆 分 需要 对 数据 进行 一 次 计算 处 
H, 确认 每 条 记录 应 该 位 于 哪个 分 片 , 所 以 相对 会 复杂 一 点 。 在 图 10-9 所 示 的 分 片 拆 分 示意 图 中 ， 
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当 一 个 高 可 用 组 的 磁盘 已 经 满 了 ， 此 时 需要 将 bucket2 拆 分 成 两 片 bucket2-1 和 bucket2-2， 此 时 整 
个 应 用 由 原来 的 四 片 拆 分 成 了 五 片 ， 分 别 为 bucketl 、bucket2-1 、bucket2-2 、bucket3 和 bucket4。 


Web API 应 用 程序 


if 
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图 10-9 分 片 拆 分 

不 管 是 分 片 迁移 还 是 分 片 拆 分 , 本 质 都 是 数据 迁移 , 京东 分 布 式 数据 库 系统 的 迁移 工作 是 完 
全 自动 化 在 线 迁 移 的 ， 主 要 由 Transfer 模 块 完 成 。 提 交 了 迁移 任务 以 后 ，Transfer 会 在 迁移 任务 指 
定 的 时 间 开 始 数 据 迁 移 , 具体 的 步骤 如 图 10-10 所 示 。 因 为 每 一 个 高 可 用 组 中 都 有 一 个 master 和 多 
个 slave， 考 虑 到 实现 的 难 易 程 度 ， 整 个 迁移 过 程 都 选择 对 高 可 用 组 中 的 master 实 例 进行 操作 。 首 
先 到 源 实例 上 将 数据 导出 来 ,然后 将 导出 来 的 数据 恢复 到 目标 实例 ， 如 果 是 分 片 拆 分 的 话 , 恢复 
的 过 程 需 要 有 一 次 解析 计算 , 确保 数据 落 到 正确 的 分 片上 。 当 恢复 完 以 后 , 需要 对 数据 进行 一 次 
校 验 , 确认 此 时 数据 没有 出 现 异 常 。 这 些 步 骤 都 是 在 线 下 操作 的 ， 对 业务 是 完全 不 可 见 的 ， 所 以 
在 此 期 间 可 能 会 有 新 的 数据 进入 待 迁移 的 分 片 中 , 此 时 需要 将 这 些 增 量 数据 抽取 出 来 , 然后 恢复 
到 目标 实例 上 。 在 分 片 拆 分 的 时 候 , 同样 需要 对 增 量 数据 进行 计算 , 确保 数据 落 到 正确 的 分 片上 。 
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当 追 增 量 追 到 一 定 程度 时 , 需要 请 求 Manager 将 Jproxy 的 路 由 锁 住 , 此 时 该 分 片 对 应 的 schema 
仅 提供 只 读 服务 ， 其 他 不 涉及 迁移 的 schema 的 访问 都 是 正常 的 。 如 果 路 由 不 锁 住 的 话 , 增 量 可 能 
永远 追 不 完 。 但 是 考虑 到 大 部 分 数据 已 经 迁移 完毕 ， 所 以 锁 路 由 的 时 间 会 非常 短暂 。 线 上 实际 迁 
移 的 时 候 ， 一 个 拥有 几 十 GB 数据 的 bucket 迁 移 ， 锁 路 由 时 间 上 只 有 短 短 的 几 秒 钟 。 


当 锁 住 路 由 以 后 , 我 们 会 将 剩余 的 少量 增 量 完全 追 完 , 最 后 再 做 一 次 同步 校 验 , 确保 增 量 追 
赶 的 正确 性 。 此 时 Transfer 模 块 会 请 求 Manager 模 块 更 新 路 由 ，Manager 会 将 路 由 更 新 以 后 ,将 其 
存 人 元 信息 数据 库 中 ， 接 着 再 将 新 的 路 由 推送 给 所 有 的 Jproxy， 接 着 将 所 有 的 Jproxy 路 由 解锁 ， 
至 此 路 由 切换 完成 ， 整 个 迁移 过 程 结束 。 


整个 自动 化 在 线 迁移 系统 还 是 比较 复杂 的 ,还 有 很 多 其 他 因素 需要 考虑 ,例如 各 种 并 发 情况 、 
迁移 时 间 点 的 选择 以 及 迁移 过 程 中 发 生 异 常 主 从 切换 ， 等 等 。 


10.4 小 结 


REP, 我 们 首先 介绍 了 分 布 式 数据 库 的 一 些 概念 、 数 据 的 分 片 方式 以 及 分 布 式 数据 库 实现 
中 的 一 些 技 术 难 点 ， 等 等 。 


最 后 , 我 们 重点 介绍 了 京东 的 分 布 式 数 据 库 系统 , 介绍 了 整体 的 系统 架构 以 及 高 可 用 性 、 可 
扩展 性 和 高 可 靠 性 的 实现 。 整 个 设计 思想 是 中 心 化 管理 ,所 有 的 调度 以 及 路 由 维护 等 都 由 Manager 
管理 。 分 布 式 系统 是 比较 复杂 的 ,需要 处 理 的 细节 也 比较 多 。 有 单 点 故障 的 节点 都 需要 通过 主 从 
备份 来 消除 单 点 故障 , 有 并 发 处 理 的 场景 在 设计 时 都 需要 尽 可 能 地 考虑 清楚 , 最 后 再 加 上 充分 的 
测试 以 及 上 线 后 完善 的 监控 ， 最 终 保 证 整个 系统 稳定 运行 。 


数据 库 与 IO 资源 控制 


这 一 部 分 内 容 主要 是 延伸 阅读 。 通 常 ， 当 我 们 的 应 用 数 比较 多 的 时 候 ， 可 能 会 将 不 同 的 应 用 
部 署 在 同一 台 物 理 服务 器 上 (通常 是 不 同类 型 的 应 用 , 例如 将 IO 密集 型 应 用 和 计算 密集 型 应 用 放 
在 一 台 物 理 机 上 ， 以 达到 充分 利用 物理 服务 器 资源 的 目的 )， 这 个 时 候 就 会 涉及 各 个 应 用 之 间 的 
隔离 问题 以 及 资源 控制 问题 。 容 器 方案 随 之 产生 了 , 现在 , 很 多 容器 方案 ( 比如 docker 和 Ixc ) 中 ， 
资源 控制 和 隔离 的 本 质 都 是 利用 Linux 内 核 的 CGroup 和 namespace 机 制 来 实现 的 。 


本 章 中 ， 我 们 将 对 数据 库 的 资源 控制 进行 相关 的 介绍 ， 对 Linux 资 源 控制 系统 CGroup 进 行 细 
致 的 讲解 。 


A1 数据 库 资 源 控 制 方案 简介 


云 数据 库 根 据 用 户 或 应 用 类 型 的 不 同 , 按照 资源 部 署 情况 , 大 体 可 以 分 为 共享 型 数据 库 和 独 
享 型 数据 库 。 针 对 数据 量 和 访问 量 都 比较 大 的 应 用 ,会 分 配 独 立 的 数据 库 实例 和 相应 的 物理 资源 。 
针对 大 多 数 的 小 应 用 可 能 是 多 个 应 用 共用 同一 数据 库 实 例 ， 并 且 部 署 在 同一 台 物 理 设备 资源 上 ， 
那么 如 何 做 到 多 个 应 用 之 间 互 不 影响 就 显得 尤为 重要 了 。 有 具体 的 隔离 方案 可 以 在 应 用 层 来 做 , 也 
可 以 在 OS 层 来 做 ， 或 者 是 使 用 虚拟 机 的 方案 ， 我 们 先 简单 介绍 下 主要 的 几 种 方案 。 


A.1.1 基于 应 用 层 的 资源 控制 


基于 应 用 层 的 隔离 方案 如 图 A-1 所 示 ， 基 本 是 通过 在 数据 库 访问 接 入 层 上 引入 一 些 策略 来 保 
障 多 个 应 用 之 间 尽量 做 到 互 不 影响 ， 例 如 针对 低 效 SQL 语句 拦截 、 针 对 应 用 级 别 进行 流量 控制 ， 
等 等 。 

这 种 隔离 方案 总 体 上 比较 简单 , 但 由 于 其 所 作用 的 层次 比较 高 , 所 以 基本 无 法 做 到 细 粒 度 相 
对 准确 的 一 个 资源 控制 。 基 于 SQL 的 拦截 总 体 上 也 只 是 一 个 预 判 , 流量 控制 上 可 能 只 能 控制 网 络 
带宽 的 分 配 ， 后 端 DB 资源 的 控制 及 相应 IO 资源 的 控制 可 能 就 无 法 精确 掌控 。 
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数据 库 实例 
图 A-1 基于 应 用 层 的 资源 控制 


A1.2 ”基于 OS 层 的 资源 控制 


基于 OS 层 的 资源 控制 目前 主要 是 使 用 kernel 的 CGroup 机 制 -CGroup 机 制 通过 VFS 暴 露 的 文件 
系统 接口 来 使 用 户 能 够 控制 不 同 进程 对 操作 系统 资源 的 使 用 ， 主 要 包括 CPU、 内 存 、 存 储 、 网 络 
等 方面 。 由 于 CGroup 位 于 内 核 屋 ， 所 以 对 资源 控制 的 粒度 就 相对 精细 很 多 。 不 过 CGroup 本 身 只 
是 一 套 框架 , 具体 功能 要 看 各 个 内 核子 系统 维护 者 的 实现 程度 , 所 以 很 多 特性 可 能 需要 比较 新 的 
内 核 版 本 。 并 且 CGroup 各 个 内 核子 系统 每 天 还 在 不 断 发 生变 化 ， 这 点 用 户 可 能 需要 单独 考虑 和 
权衡 。 


A.2 CGroup 的 基本 使 用 
本 节 中 ， 我 们 将 介绍 CGroup 的 一 些 基本 用 法 。 


A.2.1 ”内 核 选项 检查 及 编译 


要 使 用 CGroup， 首 先 需要 确认 我 们 的 内 核对 CGroup 这 个 子 系统 的 支持 程度 。 对 于 不 同 的 内 
核 版 本 ， 有 些 CGroup 选 项 默认 是 关闭 的 ， 需 要 根据 使 用 需要 自行 打开 并 重新 编译 内 核 。 


在 内 核 源 代 码 包 的 根 目录 下 执行 如 下 命令 : 


root# make menuconfig 


在 弹出 的 内 核 配置 菜单 中 选择 General setup — Control Group support 菜单 项 ， 从 打开 的 界面 
中 确认 图 A-2 中 的 这 些 子 系统 是 否 已 经 被 打开 。 
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xample debug cgroup subsystem 
reezer cgroup subsystem 
evice controller for cgroups 
puset support 
nclude legacy /proc/<pid>/cpuset file 
imple CPU accounting cgroup subsystem 
esource counters 
Memory Resource Controller for Control Groups 
Memory Resource Controller Swap Extension 
Memory Resource Controller Swap Extension enabled by default 
Memory Resource Controller Kernel Memory accounting 
HugeTLB Resource Controller for Control Groups 
nable perf_event per-cpu per-container group (cgroup) monitoring 
roup CPU scheduler ---> 
lock IO controller 
nable Block IO controller debugging 


图 A-2 ”检查 CGroup 子 系统 是 否 打 开 


进入 Group CPU scheduler 一 子 菜单 , 确认 CPU 调度 器 相关 的 内 容 已 经 被 打开 , 如 图 A-3 所 示 。 


日- Croup CPU scheduler 


[*] 
[*] 


roup scheduling for SCHED_OTHER 


PU bandwidth provisioning for FAIR_GROUP_SCHED 


roup scheduling for SCHED_RR/FIFO 


图 A-3 ”确认 CPU 调 度 器 相关 的 内 容 已 经 打开 


如 果 上 默认 情况 满足 需求 ， 就 无 须 做 其 他 工作 。 如 果 默 认 情 况 不 能 满足 需求 , 则 将 相 
开 后 ， 重 新 编译 内 核 ， 具 体 过 程 如 下 。 


保存 并 退出 刚刚 配置 好 的 menuconfig 菜 单 后 ， 执 行 如 下 命令 


root# make & make modules install & make install 


在 编译 安装 过 程 中 ,会 自动 设置 好 grub 等 启动 信息 ， 之 后 重启 操作 系统 ， 进 入 grub 


ne 


位 新 编译 的 内 核 版 本 即 可 。 


A.2.2 ”CGroup 的 操作 方法 


CGroup 是 通过 内 核 的 VFS 接 口 暴露 给 用 户 使 用 的 。 也 就 是 说 , 它 本 身 是 作为 一 个 文件 系统 来 
完成 用 户 数据 到 内 核 的 传递 的 。 所以, 使 用 CGroup 时 ， 首先 需要 挂 载 CGroup 文 件 系 统 ( 如 图 A-4 
所 示 )， 具 体 使 用 方式 如 下 : 


root# mount -t cgroup <dev name> <mount dim 


hardwall 


应 选项 打 


菜单 ， 选 


图 A-4 ”CGroup 文 件 系 统 
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因为 CGroup 并 不 涉及 真实 设备 ， 所 以 mount 的 dev name 参 数 可 以 自己 随意 命名 ，mount dir 指 
的 是 具体 挂 载 到 哪个 目录 下 的 。 命令 执行 完毕 后 , 会 在 指定 的 挂 载 目 录 下 出 现 很 多 文件 ,这些 文 
件 都 是 CGroup 框 架 及 各 个 子 系统 实现 所 生成 的 文件 ， 我 们 后 续 就 是 通过 操作 这 些 文件 来 进行 资 
源 分 配 的 。 图 A-5$ 给 出 了 CGroup 文 件 系统 挂 载 之 后 出 现 的 一 些 文件 ,我 们 按照 子 系统 将 它们 进行 
了 分 类 。 

如 图 A-5 所 示 ，CGroup 按 功能 的 不 同 分 为 不 同 的 多 组 文件 ,图 中 深 色 背景 对 应 的 文件 是 单纯 
用 于 统计 数据 的 只 读 文件 。 另 外，CGroup 框 架 本 身 提供 的 notify_on release 、release_agent 及 tasks 
文件 是 CGroup 发 展 早 期 就 存在 的 文件 ， 将 来 有 可 能 会 被 移 除 。 


block 子 系统 CFQ 策 略 文件 block 子 系统 throttle 策 略 文 件 cpuset 子 系统 相关 文件 memory 了 系统 相关 文件 
blkio.weight_device blkio.throttle.read_bps_device cpuset.cpu_exclusive memory. failent 
blkio. weight blkio.throttle.write_bps_ device cpuset.cpus memory.force_empty 
blkio.leaf_weight_device blkio.throttle.read_iops_device cpuset.mem_exclusive memory.limit_in_bytes 
blkio.leaf_weight blkio.throttle.write_iops_device cpuset.mem_hardwall memory.max_usage_in_bytes 
blkio.time[_recursive] blkio.throttle.io_service_bytes cpuset.memory_migrate memory.move_charge_at_immigrate 
blkio.sectors[_ recursive] blkio.throttle.io_serviced cpuset.memory_ pressure memory.numa_stat 
blkio.io_merged[_recursive] cpuset.memory_pressure_enabled memory.oom_control 
= s tE Ha eee H ayr 
blkio.io_queued[_recursive] block 子 系统 框架 产生 文件 cpuset.memory_spread_page memory.pressure_level 
blkio.io_wait_time[_recursive] blkio.reset_stats cpuset.memory_spread_slab memory.soft_limit_in_bytes 
blkio.io_serviced[_recursive] cpuset.mems memory.use_hierarchy 
blkio.io_service time[_recursive] | CPU accounting 子 系统 相关 文件 cpuset.sched_load_balance memory.swappiness 
blkio.io_service_bytes[_ recursive] cpuacct.usage cpuset.sched_relax_domain_level memory.usage_in_bytes 
” cpuacct.stat memory.stat 
cpu 子 系统 相关 文件 ECEE pagan CGroup 框 架 相 关 文 件 
cpu.shares cgroup.clone_children Wsi 
l AEN —_ hugetb 相 关 文件 
cpu.cfs_quota_us security 子 系统 文件 cgroup.event_control r 
- hugetlb.2MB. failent 
cpu.cfs_period_us | devices.allow cgroup.procs Re 
7 5 hugetlb.2MB.limit_in_bytes 
cpu.rt_runtime_us devices.deny notify_on_release —— 
a | hugetlb.2MB.max_usage_in_bytes 
cpu.rt_period_us devices. list release_agent 
hugetlb.2MB.usage_in_bytes | 
cpu.stat tasks ZEI 
cgroup.sane_behavior 


图 A-5 ”CGroup 各 个 子 系统 相关 的 文件 


通常 情况 下 ， 我 们 会 在 CGroup 根 目录 中 按照 某 种 资源 划分 方式 创建 不 同 的 目录 ， 每 个 新 创 
建 的 目录 中 也 会 自动 生成 相同 的 这 些 文件 ， 如 图 A-6 所 示 。 


mi 


rt_runtime_us 


KA-6 ”在 CGroup 文 件 系统 中 创建 目录 
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实际 上 ，CGroup 内 部 实现 本 身 就 是 通过 维护 一 套 树 形 结构 来 组 织 各 个 资源 组 的 层次 关系 ， 
而 对 外 正好 通过 文件 系统 的 目录 树 结构 来 表示 出 来 ， 这 样 我 们 可 以 按照 业务 需求 首先 在 CGroup 
文件 系统 上 建立 好 对 应 的 层次 关系 ， 然 后 再 告诉 CGroup 系 统 哪些 进程 属于 哪个 资源 组 ， 从 而 完 
成 对 不 同 进 程 进行 资源 限制 等 工作 。 


例如 , 整个 系统 上 同时 混 跑 了 3 个 数据 库 实例 DB1、DB2 和 DB3，, 假设 不 同 实例 的 访问 量 是 不 
一 样 的 ， 我 们 要 根据 实际 访问 情况 为 不 同 的 实例 分 配 不 同 的 资源 占 比 ， 例 如 希望 DB1 独 占 50% 的 
CPU 资源 、60% 的 磁盘 IO 资源 以 及 60% 的 内 存 资源 ， 而 其 余 两 个 实例 共享 剩余 的 资源 ， 那 么 就 可 
以 在 CGroup 文 件 系 统 上 创建 两 个 目录 ， 分 别 代表 两 个 资源 组 ， 然 后 分 别 配 置 这 两 个 资源 组 的 资 
源 配额 ， 最 后 将 这 些 实例 加 入 到 不 同 的 资源 组 中 来 完成 上 面 所 述 的 目标 ， 如 图 A-7 所 示 。 


| CGroup 根 目录 | 


A 人、 


50%CPU 50%CPU 
60% 磁 盘 IO Group1 目 录 Group2 目 录 409% 磁 盘 IO 


60% 内 存 — 40% 内 存 


图 A-7 CGroup 资 源 控制 


每 个 资源 组 资源 额度 的 配置 是 通过 将 相关 内 容 写 入 到 各 子 系 统 自 动 生 成 的 文件 中 来 完成 的 ， 
后 续 我 们 会 详细 说 明 。 现 在 我 们 知道 了 通过 CGroup 文 件 系统 来 组 织 资源 的 层次 关系 ,那么 如 何 
告诉 CGroup 哪 些 进 程 属于 哪些 资源 组 呢 ?” 这 可 以 通过 修改 cgroup.tasks 或 者 cgroup.procs 这 两 个 文 
件 来 完成 ， 即 将 待 加 入 进程 的 进程 ID 写 入 这 两 个 文件 中 的 一 个 。 命 令 如 下 : 


root# echo PID > 资源 组 相应 目录 /tasks 
或 者 
root# echo TGID > 资源 组 相应 目录 /procs 
那么 ， 这 两 个 文件 有 什么 区 别 呢 ， 下 面 来 解释 一 下 。 
D tasks 文 件 : 写 和 人 这 个 文件 的 数值 被 认为 是 进程 的 PID。 将 某 个 线程 的 PID 写 入 这 个 文件 ， 
那么 这 个 线程 本 身 将 被 加 入 该 资源 组 进行 管理 。 
口 procs 文 件 : 写 人 这 个 文件 的 数值 被 认为 是 进程 的 TGID , 即 线程 组 ID 。 将 一 个 进程 的 TGID 
写 入 该 文件 ， 那 么 属于 该 进程 的 其 他 线程 将 自动 加 入 该 资源 组 进行 管理 。 


总 体 上 ，CGroup 的 基本 使 用 就 是 这 样 一 个 过 程 : 按照 进程 资源 的 种 类 划分 为 不 同 的 资源 组 ， 


236 附录 A 数据 库 与 IO 资源 控制 


在 CGroup 文 件 系 统 上 建立 相应 的 目录 结构 关系 ， 配 置 相应 目录 中 各 个 子 系统 的 资源 配额 文件 ， 
最 后 将 不 同 的 进程 加 入 到 不 同 的 资源 组 中 ， 即 写 人 进程 的 PID 或 者 TGID 到 相应 目录 中 的 tasks 或 
procs 文 件 中 就 可 以 了 。 接 下 来 ， 我 们 会 结合 一 些 实际 的 案例 来 分 别 详细 讲述 各 个 子 系统 的 配置 。 


A.2.3 使 用 CGroup 限 制 进程 CPU 使 用 带宽 


首先 , 我 们 来 看 一 个 限制 CPU 使 用 带宽 的 例子 。CGroup 通 过 cpu.cfs _quota_ us 和 cpu.cfs period us 
这 两 个 文件 来 进行 资源 组 的 CPU 带宽 限制 ， 这 两 个 文件 的 默认 值 是 ; 


root@test:/sys/fs/cgroup# cat cpu.cfs_quota_us 
-1 

root@test:/sys/fs/cgroup# cat cpu.cfs_period_us 
100000 


实际 代表 的 含义 是 在 cpu.cfs_period us 指定 的 单位 内 ( 微 秒 ) 能 够 使 用 cpu.cfs_quota_us 指 定 的 CPU 
时 间 ( 微 秒 )。cpu.cfs_quota us 的 默认 值 为 -1， 代 表 没 有 限制 。 


下 面 我 们 简单 写 一 段 代 码 来 说 明 这 两 个 文件 的 作用 : 


// cpu_test.c 


#define GNU SOURCE 
#include <sched.h> 
int main() 

{ 


cpu_set_t set; 


CPU_ZERO(&set) ; 
CPU_SET(0, &set); 
sched_setaffinity(0, sizeof(cpu_set_t), &set); 


while(1); 
return 0; 
} 
这 段 代 码 的 逻辑 非常 简单 ， 首 先 通过 sched_setaffinity 来 绑 定 当前 进程 运行 在 0 号 CPU ， 然 


后 就 是 直接 一 个 死 循环 。 之 所 以 要 绑 定 CPU， 主 要 是 避免 多 CPU 带 来 的 影响 。 


直接 编译 运行 该 程序 : 


root@test:~# gcc -0 cpu test cpu_test.c 
root@test:~# ./cpu_test 
.. .程序 无 限 循环 ..， 


然后 开启 男 一 个 窗口 运行 top: 
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PID USER PR NI VIRT RES SHR 9 %CPU %MEM TIME+ COMMAND 
12410 root 20 0 4156 352 276 R 100 0.0 3:38.27 cpu_test 


可 以 看 到 ， 默 认 情 况 下 这 个 死 循环 的 程序 占用 了 100% 的 CPU 带宽 ， 下 面 我 们 创建 一 个 资源 组 并 
加 以 限制 : 


root@test:/sys/fs/cgroup# mkdir group1 
root@test:/sys/fs/cgroup# cd group1 


root@test:/sys/fs/cgroup/group1# echo "0-3" > cpuset.cpus 
root@test:/sys/fs/cgroup/group1# echo 0 > cpuset.mems 


root@test:/sys/fs/cgroup/group1# cat cpu.cfs_period_us 

100000 

root@test:/sys/fs/cgroup/group1# echo 50000 > cpu.cfs_quota_us 
root@test:/sys/fs/cgroup/groupi# echo 12410 > tasks 


然后 再 执行 top 命 令 : 
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 
12410 root 20 0 4156 352 276 R50 0.0 13:06.80 cpu_test 


可 以 看 到 ,同一 个 进程 没有 重新 运行 ,CPU 的 带宽 直接 就 变 成 30% , 这 是 因为 我 们 设置 了 在 100 000 
(cpu.cfs_ period us ) 这 个 时 间 单 位 内 允许 该 资源 组 使 用 50 000 (cpu.cfs quota us ) 这 么 多 时 间 单 
位 的 CPU。 


重新 设置 资源 配额 ,再 次 验证 下 : 


root@test:/sys/fs/cgroup/group1# echo 25000 > cpu.cfs_quota_us 
继续 执行 top 命 令 : 


PID USER PR NI VIRT RES SHR S  %CPU XMEM TIME+ COMMAND 
12410 root 20 0 4156 352 276 R 25 0.0 15:15.68 cpu test 


可 以 看 到 我 们 对 CPU 资 源 限额 的 效果 。 


这 里 再 简单 说 明 一 下 ， 上 面 的 命令 操作 了 cpuset.cpus 和 cpuset.mems 这 两 个 文件 。 因 为 新 创建 
的 资源 组 必须 要 设置 这 两 个 文件 的 值 , 否则 无 法 将 进程 加 入 资源 组 。 这 两 个 文件 分 别 代表 资源 组 
允许 使 用 的 CPU 以 及 内 存 节 点 。 我 的 测试 环境 有 4 个 CPU， 所 以 我 写 人 了 0~3 到 cpuset.cpus 文 件 ， 
表示 该 资源 组 的 进程 可 以 使 用 任意 一 个 CPU， 同 时 由 于 我 的 机 器 是 UMA ( 均匀 存储 器 存 取 ) 的 
机 器 ， 只 有 一 个 内 存 节点 ， 所 以 将 0 写 人 了 cpusetmems 这 个 文件 。 


下 面 再 简单 介绍 一 下 CGroup 里 面 CPU 子 系统 中 其 他 几 个 文件 的 作用 。 
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口 cpu.shares: 主要 用 于 CPU 的 权重 控制 。 我 们 可 以 为 不 同 的 资源 组 配置 不 同 的 权重 , 但 是 
由 于 这 个 权重 值 实际 代表 的 是 一 个 资源 组 使 用 CPU 的 下 限 值 ， 多 个 资源 组 在 运行 时 会 按 
照 权重 分 配 ， 如 果 其 中 资源 组 的 一 个 进程 暂时 不 会 占用 CPU ， 例 如 正在 等 待 某 种 资源 ， 
那么 其 他 资源 组 的 进程 会 来 抢占 CPU 资源 ， 所 以 这 个 值 本 身 不 是 准确 的 可 以 衡量 的 值 ， 
所 以 在 通常 情况 下 我 们 没有 使 用 cpu.shares。 

Q cpu.rt_period_us#cpu.rt_runtime.us: 与 之 前 的 cfs_period_ us 和 cfs_quota_ us 这 两 个 文件 
在 功能 上 类 似 , 不 同 之 处 在 于 以 rt 开头 的 这 两 个 文件 是 作用 于 实时 进程 的 ,而 以 cf 开头 的 
两 个 文件 则 作用 于 普通 进程 。 


我 们 可 以 通过 sched_setscheduler 系 统 调用 将 进程 设置 为 实时 进程 ， 这 里 不 再 详细 展开 ， 有 兴 
趣 的 读 考 可 以 自行 试验 。 
A.2.4 使 用 CGroup 限 制 进程 的 内 存 使 用 


CGroup 对 内 存 的 限制 功能 可 以 通过 memory.limit in bytes 这 个 文件 完成 ， 这 里 我 们 先 看 一 段 
程序 : 


// mem test.c 


#include <stdlib.h> 
#include <string.h> 
#include <stdio.h> 

#include <unistd.h> 


#define MALLOC SIZE 1024 * 1024 
int main(int argc, char **argv) 
{ 


char *s; 


setbuf(stdout, NULL); 


while (1) { 
s = malloc(MALLOC SIZE); 
printf("."); 


.memset(s, Ox1, MALLOC SIZE); 


sleep(1); 
} 
} 


这 上段 程序 的 功能 很 简单 ， 通 过 循环 不 断 分配 内 存 ， 每 次 分 配 1MB ， 随 后 马上 通过 memset 来 写 
这 块 内 存 以 引发 缺 页 中 断 ， 其 目的 是 为 了 分 配对 应 的 物理 内 存 ， 程 序 每 分 配 1MB 睡 眠 1 秒 。 
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编译 运行 该 程序 : 


root@test:~# gcc -o mem test mem_test.c 
root@test:~# ./mem_test 
。 无限 循环 中 


开启 一 个 新 的 终端 执行 命令 : 
root@test:~# top -p “pgrep mem_test` 


PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 
17948 root 20 0 73852 68m 344 S 0 1.9 0:00.07 mem_test 


此 时 程序 会 每 隔 1 秒 钟 增长 1MB 的 物理 内 存 占用 ， 这 可 以 通过 top 的 RES 值 看 到 。 
现在 我 们 希望 将 程序 使 用 的 物理 内 存 控制 在 3MB 以 内 ， 可 以 进行 如 下 操作 : 


root@test:~# cd /sys/fs/cgroup/ 
root@test:/sys/fs/cgroup# mkdir memcgroup 
root@test:/sys/fs/cgroup# cd memcgroup/ 


root@test:/sys/fs/cgroup/memcgroup# echo "5M" > memory.limit_in_bytes 
root@test:/sys/fs/cgroup/memcgroup# echo "0-3" > cpuset.cpus 
root@test:/sys/fs/cgroup/memcgroup# echo 0 > cpuset.mems 
root@test:~# ./mem_test 

. 无限 循环 中 


开局 新 终端 : 


root@test:/sys/fs/cgroup/memcgroup# echo “pgrep mem test” > tasks 
root@test:/sys/fs/cgroup/memcgroup# top -p `pgrep mem test- 

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 
18135 root 20 0 40588 4592 344S 0 0.1 0:00.09 mem test 


可 以 看 到 ， 内 存 占 用 被 限制 在 了 5MB 以 内 。 


重新 调整 这 个 参数 : 


root@test:/sys/fs/cgroup/memcgroup# echo "10M" > memory.limit_in_bytes 
root@test:/sys/fs/cgroup/memcgroup# top -p `pgrep mem _test` 

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 
18135 root 20 0 40588 10m 344 S 0 0.1 0:00.09 mem test 


可 以 看 到 调整 后 的 效果 ，RES 值 凯 升 到 了 10MB。 


当 程 序 使 用 的 内 存 超出 memory.limit in _ bytes 时， 系统 会 根据 另外 一 个 文件 memory. 
memsw.limit in_bytes 的 值 来 确定 是 否 将 超出 的 内 存 换 出 。 实 际 上 ，memorymemsw.limit in_bytes 
的 值 代表 可 用 内 存 加 上 可 以 换 出 的 大 小 , 即 包 含 了 memory.limit in bytes 的 值 。 我 们 看 一 下 memory. 
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memsw.limit in bytes 文 件 的 默认 值 : 


root@test:/sys/fs/cgroup/memcgroup# cat memory.memsw.limit_in_bytes 


18446744073709551615 


可 以 看 到 ， 默 认 值 是 一 个 非常 大 的 值 ， 所 以 我 们 上 面 的 程序 在 分 配 了 超过 memory.limit in bytes 
的 内 存 后 , 就 开始 发 生 换 出 操作 , 即 一 部 分 内 存 页 被 换 到 了 磁盘 上 , 通过 vmstat 可 以 看 到 这 一 点 。 
重新 运行 上 面 的 程序 ， 然 后 运行 vmstat: 


root@test:/sys/fs/cgroup/memcgroup# vmstat 1 


procs ----------- memory 
r b swpd free 


5604 1443976 
5604 1443256 
10852 1445604 
10852 1444868 
10852 1443604 
13924 1444564 
13924 1443852 
13924 1443488 
16100 1445016 


e O OrOODOOO 
(> -= 


在 程序 运行 了 10 秒 钟 之 后 ， 我 们 通过 vmstat 命 令 看 到 swap 的 so 列 出 现 了 页 换 出 的 现象 。 
如 果 我 们 不 希望 程序 在 超过 内 存 限 额 的 情况 下 去 使 用 交换 区 ， 那么 可 以 将 memory.memsw. 


137136 
137136 
137136 
137136 
137136 
137136 
137144 
137144 
137144 


buff 


865588 
865412 
865452 
865636 
865412 
865560 
865456 
865336 
865560 


DOoooeeoeoeeDeeD 


cache 


2176 


si 


总 -已 已 号 与 已 已 已 


SO 


2176 


limit in _ bytes 文件 与 nemory.limit in_bytes 设 置 相 同 的 值 : 


root@test:/sys/fs/cgroup/memcgroup# cat memory.limit_in_bytes > memory.memsw.limit_in_bytes 


153 
130 
194 
142 
134 
141 
163 
153 
208 


PRPRPPORRPRBRE 


POPOOOPODO 


99 
98 


root@test:/sys/fs/cgroup/memcgroup# cat memory.limit in bytes 


10485760 


root@test:/sys/fs/cgroup/memcgroup# cat memory.memsw.limit_in_bytes 


10485760 


重新 运行 测试 程序 : 


root@test:~# ./mem test 


.. .循环 中 
开启 新 终端 : 


root@test:/sys/fs/cgroup/memcgroup# echo “pgrep mem test” > tasks 
运行 10 秒 钟 之 后 ， 会 看 到 : 


root@test:~# ./mem test 


.. Killed 


cs us sy id wa 


oOooO0OrOOOOOmBRI 
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我 们 的 程序 被 杀 死 了 。 运 行 dmesg 验 证 一 下 : 


[22866.207485] [ pid ] uid tgid total_vm rss nr ptes swapents oom score adj name 

[22866.207549] [ 6832] 0 6832 4123 3188 13 0 0 mem test 

[22866.207554] Memory cgroup out of memory: Kill process 6832 (mem test) score 1226 or sacrifice child 

[22866.207560] Killed process 6832 (mem test) total-vm:16492kB, anon-rss:12376kB, file-rss:376kB 

可 以 看 到 , 我 们 的 程序 确实 被 操作 系统 杀 死 了 。 假如 希望 程序 在 使 用 内 存 超 过 限额 时 不 被 马 
上 杀 死 ， 而 是 等 待 一 段 时 间 , 并 且 如 果 这 段 时 间 内 我 们 重新 调整 了 内 存 限额 策略 , 或 者 程序 自己 
释放 了 一 些 内 存 从 而 不 再 超过 限额 ， 程 序 可 以 自己 恢复 继续 执行 ， 这 个 时 候 可 以 通过 操作 
memory.oom_control 文 件 来 完成 。 首 先 看 看 这 个 文件 的 内 容 : 


root@test:/sys/fs/cgroup/memcgroup# cat memory.oom_control 
oom kill disable 0 
under_oom 0 


这 个 文件 同时 提供 了 两 个 值 ， 一 个 用 来 写 入 ,一 个 用 来 查看 。 我 们 可 以 通过 癌 
memory.oom_ control 写 入 1 来 改变 oom kill disable 的 值 ， 其 默认 值 是 0， 即 不 会 禁止 kill 操 作 ， 这 
里 我 们 把 它 改 成 1 ( 表示 当 内 存 超过 限额 时 不 杀 死 进程 ): 


root@test:/sys/fs/cgroup/memcgroup# echo 1 > memory.oom_control 
root@test:/sys/fs/cgroup/memcgroup# cat memory.oom_control 

oom kill disable 1 

under_oom 0 


然后 重新 运行 mem_test 程 序 : 


root@test:~# ./mem_test 
. .程序 循环 


开局 新 终端 : 


root@test:/sys/fs/cgroup/memcgroup# echo “pgrep mem test” > tasks 
10 秒 钟 之 后 ， 我 们 看 到 : 
root@test:~# ./mem_test 
. .程序 无 响应 (程序 正常 运行 会 不 断 打印 .) 
查看 oom_control 文 件 : 
root@test:/sys/fs/cgroup/memcgroup# cat memory.oom_control 


oom kill disable 1 
under_oom 1 


我 们 看 到 这 时 under_oom 为 1， 它 用 来 告诉 我 们 当前 资源 组 是 否 处 于 oom 状 态 ， 这 时 由 于 我 们 关闭 
了 该 资源 组 内 存 达到 限制 时 被 杀 死 的 功能 ， 所 以 程序 表现 为 无 响应 状态 。 下 面 通过 top 命 令 来 查 
看 进程 的 状态 
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root@test:/sys/fs/cgroup/memcgroup# top -p “pgrep mem_test™ 


PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 
6947 root 20 0 16492 12m 376 D 0 0.4 0:00.01 mem_test 


通过 top 可 以 看 到 程序 处 于 D 状 态 ， 即 不 可 打 断 的 睡眠 状态 ， 这 时 重新 调整 memory 限 额 策略 : 


root@test:/sys/fs/cgroup/memcgroup# echo "20M" > memory.memsw.limit_in_bytes 
root@test:/sys/fs/cgroup/memcgroup# echo "20M" > memory.limit_in_bytes 


可 以 看 到 测试 程序 开始 继续 运行 : 


root@test:~# ./mem_test 
... 程 序 继续 运 行 


新 建 终端 并 执行 top 命 令 来 查看 进程 的 最 新 状态 : 


root@test:/sys/fs/cgroup/memcgroup# top -p “pgrep mem test-、 


PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 
6947root 20 0 16492 12m 376 R 0 0.4 0:00.01 mem test 


可 以 看 到 程序 重新 变 成 R 状 态 ， 即 运行 状态 (这 里 也 很 可 能 是 S 状 态 ， 因 为 申请 1MB 内 存 是 非常 
快 的 ， 程 序 很 快 进入 睡眠 状态 ， 即 $ 状 态 )。 


除了 可 以 简单 控制 资源 组 内 存 限 额 中 的 oom ( out of memory ) 机 制 外 ，CGroup 同 时 还 为 我 们 
提供 了 方便 的 通知 机 制 ， 例 如 在 某 个 资源 组 发 生 了 oom 事 件 时 可 以 给 我 们 发 送 通知 。 通 过 操作 
cgroup.event_control 文 件 ， 可 以 完成 事件 通知 的 注册 工作 ， 具 体 过 程 如 下 。 

(1) 创建 一 个 eventfd。 

(2) 打开 一 个 感 兴趣 并 可 以 用 作 通 知 机 制 的 文件 ， 例 如 memory.oom _control。 

(3) 向 cgroup.event_control 文 件 中 写 和 人 如 下 格式 的 字符 串 : xevent fd> <fd of memory.oom_conrol>。 

CGroup 对 应 用 容 露 的 这 个 通知 接口 的 使 用 方式 看 起 来 可 能 比较 陌生 ， 下 面 我 们 通过 一 段 代 
码 来 了 解 一 下 : 


// mem event.c 


#include <sys/types.h> 
#include <sys/stat.h> 
#include <fcntl.h> 
#include <sys/eventfd.h> 
#include <sys/epoll.h> 
#include <errno.h> 
#include <string.h> 
#include <stdio.h> 
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#include <stdlib.h> 


#define MAX_EVENTS 10 
#define BUF_SIZE 512 


void usage() 


i printf("usage: mem_event <cgroup.event_control> <memory.oom_control>\n"); 
exit(EXIT_FAILURE); 

} 

void error_exit(char *err_msg) 

{ 
printf("%s,error: %s(%d)\n", err msg, strerror(errno), errno); 
exit(EXIT FAILURE); 

} 


int main(int argc, char **argv) 


uint64 t u; 

char buf[BUF_SIZE]; 

int efd, ctl_fd, oom fd, n, ep fd, nfds; 
struct epoll_event ev, events[MAX EVENTS]; 


if (argc != 3) { 


usage(); 

} 

if ((efd = eventfd(0, EFD_NONBLOCK)) == -1) { 
error exit("create eventfd failed"); 

} 


if ((ctl_fd = open(argv[1], O_WRONLY)) == -1) { 
error_exit("open cgroup.event_control failed"); 


} 


if ((oom_fd = open(argv[2], O_RDONLY)) == -1) { 
error_exit("open cgroup.oom_control failed"); 


} 


if ((n = snprintf(buf, BUF_SIZE, "%d %d", efd, oom_fd)) >= BUF SIZE) { 
error exit("event buf truncated"); 


} 


if (write(ctl_fd, buf, n) == -1) { 
error_exit("write cgroup.event_control failed"); 


} 


if (close(ctl_ fd) == -1) { 
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error_exit("close cgruop.event_control failed"); 


} 

if ((ep_fd = epoll create(1024)) == -1) { 
error exit("epoll create failed"); 

} 


ev.events = EPOLLIN; 
ev.data.fd = efd; 


if (epoll ctl(ep fd, EPOLL_CTL_ADD, efd, &ev) == -1) { 


error exit("add eventfd to epoll failed"); 


} 
for (55) { 
nfds = epoll wait(ep fd, events, MAX_EVENTS, -1); 
if (nfds == -1) { 
error exit("epoll wait error"); 
} 
for (n = 0; n < nfds; n++) { 
if (events[n].data.fd != efd) { 
error exit("epoll receive unknown event"); 
} 
if (read(efd, &u, sizeof(uint64 t)) != sizeof(uint64 t)) { 
error exit("read from eventfd error"); 
} 
printf("oom event received\n"); 
} 
} 
} 
编译 运行 该 程序 : 


root@test:~# gcc -0 mem event mem_event.c 

root@test:~# ./mem event /sys/fs/cgroup/memcgroup/cgroup.event_control 
/sys/fs/cgroup/memcgroup/memory.oom_control 

< 程序 无 限 等 待 >(epoll 无 限 等 待 来 自 CGroup 的 通知 ) 


新 建 终端 重新 运行 mem_test: 


root@test:~# ./mem_test 
...< 程 序 运行 中 > 


新 建 男 一 个 终端 并 执行 以 下 命令 : 
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root@test:/sys/fs/cgroup/memcgroup# echo “pgrep mem test” > tasks 
10 秒 钟 之 后 可 以 看 到 : 


root@test:~# ./mem event /sys/fs/cgroup/memcgroup/cgroup.event_control 
/sys/fs/cgroup/memcgroup/memory.oom_control 
oom event received 


epoll 监 听 的 终端 收 到 了 oom 的 消息 。 由 于 之 前 设置 了 oom_control 中 的 oom_kill_ disable 为 1 ， 
所 以 我 们 的 mem _test 程 序 并 没有 被 杀 掉 : 


root@test:~# ./mem_test 
.……< 无 限 等 待 中 > 


假如 我 们 希望 在 资源 紧张 的 情况 下 提前 获得 通知 ， 而 不 是 等 到 已 经 oom 的 时 候 ， 我 们 还 可 以 
注册 另外 一 个 用 作 通 知 的 文件 memory.pressure_level。 

该 文件 可 以 将 内 存 使 用 情况 按 级 别 分 类 ,分别 是 low、medium、critical 三 个 级 别 。 用户 可 以 
KERA, 在 内 存 使 用 情况 超过 用 户 设置 的 级 别 时 就 通知 用 户 。 下 面 分 别 解释 下 这 三 个 级 别 的 不 
同 含义 。 

口 low 级 别 : 当 系 统 开始 为 新 的 内 存 申请 而 回收 内 存 时 ， 处 于 此 级 别 。 

口 medium 级 别 : 在 此 级 别 时 ， 系 统 内 存 使 用 已 经 处 于 中 度 紧张 中 ， 系 统 可 能 已 经 使 用 交换 
区 。 

O critical 级 别 : 在 此 级 别 时 , 系统 内 存 处 于 严重 紧张 中 , 系统 内 存 的 换 入 换 出 会 比较 严重 。 


我 们 可 以 按 如 下 流程 操作 memory.pressure level 文件 , 来 进行 内 存 资源 使 用 情况 的 通知 注册 。 


(1) 创建 eventfd 句 柄 。 
(2) 打开 memory.pressure_ leven 文 件 。 
(3) 向 cgroup.event_control 文 件 中 写 人 如 下 格式 的 字符 串 : 


<event_fd> 《fd of memory.pressure_level> <level> 


其 中 level 可 以 是 前 面 描述 的 low、medium、critical。 


我 们 可 以 简单 修改 一 下 mem_event.c 的 代码 , 来 测试 pressure_level 的 通知 功能 。 这 里 我 们 只 
需要 简单 修改 下 面 几 行 代码 。 
原 代 码 : 


if ((n = snprintf(buf, BUF_SIZE, "%d %d", efd, oom fd)) >= BUF_ SIZE) { 
error exit("event buf truncated"); 


} 
修改 为 : 
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if ((n = snprintf(buf, BUF_SIZE, "%d %d low", efd, oom fd)) >= BUF SIZE) { 


error exit("event buf truncated"); 


} 


然后 执行 程序 ， 将 第 二 个 命令 行 参 数 改 为 pressure_level 文 件 路 径 即 可 : 


root@test:~# ./mem_event /sys/fs/cgroup/memcgroup/cgroup.event_control 


/sys/fs/cgroup/memcgroup/memory.pressure_level 


程序 运行 几 秒 后 即 会 收 到 通知 。 大 读者 有 兴趣 , 可 以 自行 将 low 改 为 medium 或 者 critical 进 行 


详细 测试 ， 这 里 不 再 


A.2.5 使 用 CGroup 限 制 磁盘 带宽 使 用 


列 出 。 


磁盘 IO 带宽 的 控制 可 以 通过 操作 CGroup 的 blkio.weight 文 件 及 blkio.weight _ device 文件 来 完 


成 


四 


具体 操作 格式 如 下 : 


root# echo <10-1000> > blkio.weight 


root# echo <major>:<minor> <10-1000> > blkio.weight_device 


blkio.weight 接 受 一 个 10~1000 的 值 ， 代 表 该 资源 组 磁盘 IO 的 一 个 权重 ， 而 实际 IO 带宽 的 分 配 
是 根据 此 权重 值 来 完成 的 。 


blkio.weight_device 与 blkio.weight 的 含义 基本 相同 ,区 别 在 于 blkio.weight-device 可 以 单独 限 币 


某 个 设备 的 权重 值 ， 而 blkio.weight 则 代表 所 有 设备 。 
这 样 我 们 可 以 在 设置 了 blkio.weight 的 同时 单独 为 某 个 设备 重新 分 配 不 同 的 权重 值 , 即 覆 盖 掉 


默认 的 设置 。 


= 


这 里 需要 特殊 说 明 的 是 ，blkio.weight 磁盘 IO 带宽 限制 的 实现 是 通过 内 核 通用 块 层 的 CFQ 调 
度 吉 来 完成 的 ， 所 以 我 们 使 用 这 种 方式 进行 IO 控制 时 ， 必 须 首 先 确 认 使 用 的 是 CFQ IO 调度 需 。 


这 可 以 通过 下 面 的 方式 进行 设置 。 


首先 ， 确 认 我 们 测试 所 在 的 文件 系统 挂 载 点 所 属 的 盘 符 。 


root@test:~# lsblk 
NAME MAJ:MIN RM 


sda 8:0 
六 一 sdal1 8:1 
t—sda2 8:2 
—sda5 8:5 

sro 11:0 


从 上 面 的 命令 可 以 看 到 我 们 的 盘 符 是 sda。 接 下 来 我 们 看 下 这 块 盘 的 IO 调度 器 是 什么 ， 这 


SIZE RO TYPE MOUNTPOINT 


0 


e O OO 


以 通过 执行 如 下 命令 来 查看 : 


465.8G 
462.20 
1K 
3.60 
1024M 


0 
0 
0 
0 
0 


disk 

part / 
part 

part [SWAP] 
rom 


X 


可 
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root@test:~# cat /sys/block/sda/queue/scheduler 
noop [deadline] cfq 


可 以 看 到 ， 当 前 默认 的 IO 调度 器 是 deadline， 通 过 如 下 命令 将 其 更 改 为 CF0: 


root@test:~# echo "cfq" > /sys/block/sda/queue/scheduler 
root@test:~# cat /sys/block/sda/queue/scheduler 
noop deadline [cfq] 


此 时 就 可 以 测试 磁盘 IO 带 宽 控 制 的 效果 了 。 
下 面 我 们 来 看 一 个 例子 。 新 建 两 个 不 同 的 资源 组 ， 分 别 分 配 不 同 的 权重 值 : 


root@test:/sys/fs/cgroup# mkdir blktest1 
root@test:/sys/fs/cgroup# mkdir blktest2 
root@test:/sys/fs/cgroup# echo 900 > blktest1/blkio.weight 
root@test:/sys/fs/cgroup# echo 100 > blktest2/blkio.weight 


然后 分 别 开 启 两 个 终端 并 执行 以 下 命令 。 

终端 1: 

root@test:~# echo $$ > /sys/fs/cgroup/blktest1/tasks 
终端 2: 

root@test:~# echo $$ > /sys/fs/cgroup/blktest2/tasks 


这 里 解释 一 下 ， 在 shell 下 用 $$ 代表 当前 shell 进 程 的 PID。 这 两 条 命令 分 别 把 当前 shell 进 程 加 
人 到 相应 资源 组 中 。 由 于 CGroup 的 实现 机 制 是 子 进程 会 继承 父 进程 的 资源 组 配置 ， 所 以 我 们 后 
续 在 这 两 个 终端 中 运行 的 所 有 命令 都 会 属于 相应 的 资源 组 。 


随后 ， 我 们 分 别 在 两 个 终端 执行 dd 命令 进行 测试 。 


终端 1: 


root@test:~# dd if=/dev/zero of=./test1.data oflag=direct bs=1M count=10240 


终端 2: 


root@test:~# dd if=/dev/zero of=./test2.data oflag=direct bs=1M count=10240 


终端 3: 


root@test:~# iotop 

Total DISK READ: 0.00 B/s | Total DISK WRITE: 127.91 M/s 

TID PRIO USER DISK READ DISK WRITE SWAPIN 10> COMMAND 

16149 be/4 root 0.00 B/s 116.37 M/s 0.00 % 97.01% dd if=/dev/zero of=./testi.data 
oflag=direct bs=1M count=10240 


248 ”附录 A 数据 库 与 IO 资源 控制 


16151 be/4 root 0.00 B/s 11.54 M/s 0.00 % 92.01% dd if=/dev/zero of=./test2.data 
oflag=direct bs=1M count=10240 


通过 ;iotop 命 令 看 到 DISK WRITE 一 栏 上 两 个 进程 的 写 人 能 力 大 约 为 9 : 1。 这 里 特别 说 明 一 下 ， 
当前 内 核 版 本 (3.13 ) 只 能 支持 直接 IO (direct IO ) 方式 的 磁盘 IO 资源 控制 ， 其 主要 原因 是 内 核 
的 资源 控制 实现 是 按照 进程 来 划分 的 ， 这 也 是 我 们 要 把 待 控制 的 进程 PID 写 入 tasks 文 件 的 原因 。 
但 是 对 于 缓存 IO (buffer IO ) 的 写 人 ， 由 于 它 只 是 写 人 到 内 核 的 页 面 缓存 中 ， 需 要 等 到 将 来 某 一 
时 刻 会 异步 刷新 到 磁盘 上 ， 所 以 真正 写 磁盘 时 ， 进 程 可 能 根本 已 经 不 是 当初 发 起 写 的 那个 进程 ， 
所 以 基于 缓存 IO 方式 的 磁盘 IO 是 无 法 准确 控制 资源 限额 的 。 所 以 我 们 在 用 dd 命令 进行 测试 时 , 需 
要 加 上 oflag=direct 参 数 ， 这 样 实际 的 写 人 就 是 直接 IO 方式 的 了 。 


基于 带宽 控制 方式 的 好 处 是 整体 上 的 控制 策略 是 弹性 的 。 例如 , 虽然 我 们 限制 了 两 个 资源 组 
的 权重 , 但 是 假如 其 中 一 个 资源 组 没有 活动 的 进程 或 者 使 用 的 IO 资 源 并 不 多 , 那么 另 一 个 进程 是 
可 以 使 用 剩余 的 IO 资源 的 。 我 们 进行 如 下 测试 进行 验证 。 


终端 1: 


root@test:/sys/fs/cgroup# cat blktest1/blkio.weight 
900 
root@test:/sys/fs/cgroup# cat blktest2/blkio.weight 
100 


终端 2: 


root@test:~# echo $$ > /sys/fs/cgroup/blktest2/tasks 

root@test:~# dd if=/dev/zero of=test2.data oflag=direct bs=1M count=1024 

1024+0 records in 

1024+0 records out 

1073741824 bytes (1.1 GB) copied, 7.99986 s, 134 MB/s 

同 前 面 的 测试 对 比 一 下 可 以 看 出 差别 。 在 前 面 的 测试 案例 中 ,两 个 dd 程序 一 起 运行 时 ,由 于 
blktest2 资 源 组 配置 的 带宽 权重 为 100, 所 以 最 终 的 写 人 能 力 在 10MB/s 左 右 。 而 在 第 二 个 测试 中 ， 
由 于 只 运行 了 一 个 dd 程序 ， 虽 然 其 所 在 资源 组 的 权重 配额 仍然 是 100， 但 是 由 于 没有 其 他 进程 在 
使 用 IO 资源 ， 所 以 可 以 占用 全 部 的 IO 资源 ， 这 里 体现 了 我 们 所 讨论 的 弹性 。 


A.2.6 ”通过 限 流 方 式 控 制 IO 资源 的 使 用 


虽然 基于 IO 带宽 权重 的 资源 控制 方式 能 够 带 来 弹性 ， 但 是 它 在 很 多 场景 下 都 是 无 法 工作 的 ， 
例如 我 们 的 数据 库 应 用 通常 会 使 用 限期 (deadline ) IO 调度 器 ， 因 为 该 调度 器 内 部 会 单独 维护 一 
个 队列 , IO 请 求 在 队列 中 按 请 求 时 间 的 先后 顺序 进行 排列 , 所 以 该 调度 器 在 单个 IO 请 求 延迟 方面 
是 有 严格 保障 的 ， 所 以 对 于 在 线 的 数据 库 应 用 来 说 ， 整 体系 统 表 现 就 会 好 于 CFQ IO 调度 器 ， 并 
且 在 很 多 高 速 设备 上 CFQ IO 调度 器 的 表现 也 不 如 限期 IO 调度 器 理想 。 
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除了 调度 器 的 因素 外 ,很 多 高 速 设备 ( 例如 Fusion-IO 卡 的 驱动 ) 或 者 虚拟 设备 (例如 dm io ) 
根本 不 走 IO 调 度 器 ， 所 以 也 就 没有 办 法 使 用 依赖 CFQ IO 调度 器 的 IO 带宽 控制 策略 ， 这 时 我 们 需 
要 一 种 更 通用 的 IO 控制 方法 ， 那 就 是 基于 限 流 的 IO 控制 策略 。 该 策略 的 配置 主要 通过 操作 图 A-8 
中 的 几 个 文件 来 完成 。 


blkio.throttle.read_bps_device 
blkio.throttle.write_bps_device 
blkio.throttle.read_iops_device 


blkio.throttle.io_serviced 


blkio.throttle.write_iops_ device 
blkio.throttle.io_service_bytes 


图 A-8 ”block 子 系统 throttle 策 略 文件 
下 面 简单 解释 一 下 各 个 文件 的 含义 。 


口 blkio.throttle.read[write] bps_device 文 件 : 这 两 个 文件 分 别 用 来 限制 资源 组 针对 某 个 设 
备 每 秒 钟 允许 的 读 写 字 节 数 ， 即 属于 该 资源 组 的 所 有 进程 加 一 起 每 秒 钟 只 能 读 
blkio.throttle.read_bps_device 字 方 的 数据 以 及 写 blkio.throttle.write_bps_device 字 节 的 数据 
到 指定 设备 。 


该 文件 写 入 的 格式 为 : 
< 主 设备 号 >:< 次 设备 号 > < 允许 读 取 或 写 入 的 字 节 数 > 


口 blkio.throttle.read[write] iops_device 文 件 : 这 两 个 文件 分 别 用 来 限制 资源 组 针对 某 个 设 
备 每 秒 钟 允 许 的 读 写 次 数 。 


该 文件 写 入 的 格式 为 : 


< 主 设备 号 >:< 次 设备 号 > < 人 允许 读 取 或 写 人 的 次 数 > 


口 blkio.throttle.io_serviced 和 blkio.throttle.io_service_bytes 文 件 : 这 两 个 文件 为 只 读 文 件 ， 
用 于 统计 该 资源 组 当前 流 过 的 字 节 数 及 IO 次 数 。 


下 面 我 们 还 是 简单 看 个 测试 例子 。 
首先 ， 我们 通过 1sblk 命 令 来 查看 测试 文件 系统 对 应 的 磁盘 设备 号 : 


root@test:~# lsblk 
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT 
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sda 8:0 0 465.86 0 disk 

[—sda1 8:1 0 462.2G 0 part / 
[—sda2 8:2 0 1K 0 part 

-一 sda5 8:5 0 3.60 0 part [SWAP] 
sro 11:0 1 1024M 0 rom 


root@test:/sys/fs/cgroup# echo "8:0 1048576" > blktesti/blkio.throttle.write_bps device 


这 里 我 们 限制 blktest1 资 源 组 每 秒 钟 只 能 写 人 1MB 数 据 到 sda 设 备 。 将 当前 shell 加 入 资源 组 并 用 dd 
程序 验证 一 下 : 


root@test:~# echo $$ > /sys/fs/cgroup/blktest1/tasks 

root@test:~# dd if=/dev/zero of=test1.data oflag=direct bs=1M count=8 
8+0 records in 

8+0 records out 

8388608 bytes (8.4 MB) copied, 8.00016 s, 1.0 MB/s 


可 以 看 到 , 在 没有 其 他 资源 组 的 程序 竞争 的 情况 下 , blktest1 资 源 组 对 应 的 进程 被 严格 限制 在 
了 1MB/s 的 写 和 能力， 这 里 也 验证 了 我 们 所 提 到 的 基于 限 流 的 IO 控制 方式 缺少 弹性 的 问题 。 


我 们 再 测试 一 下 在 同一 资源 组 内 同时 运行 两 个 dd 程序 的 情况 。 


终端 1: 


root@test:~# echo $$ > /sys/fs/cgroup/blktest1/tasks 

root@test:~# dd if=/dev/zero of=test1.data oflag=direct bs=1M count=8 
8+0 records in 

8+0 records out 

8388608 bytes (8.4 MB) copied, 15 s, 559 kB/s 


终端 2: 


root@test:~# echo $$ > /sys/fs/cgroup/blktest1/tasks 

root@test:~# dd if=/dev/zero of=test1.data oflag=direct bs=1M count=8 
8+0 records in 

8+0 records out 

8388608 bytes (8.4 MB) copied, 14.0023 s, 599 kB/s 


可 以 看 到 ， 两 个 进程 加 在 一 起 每 秒 钟 写 入 了 大 约 1MB 的 数据 ， 这 是 符合 预期 的 。 


A.3 ”CGroup 框 架 实现 


前 面 我 们 大 致 熟悉 了 CGroup 的 使 用 ， 下 面 我 们 来 简单 分 析 一 下 CGroup 的 实现 。 首 先 ， 我们 
需要 清楚 CGroup 本 身 只 是 一 个 通用 的 资源 管理 框架 ， 各 个 子 系统 遵循 此 框架 来 实现 自己 子 系统 
的 具体 资源 管理 策略 。 这 也 是 Linux 内 核 惯用 的 一 种 机 制 与 策略 分 离 的 设计 方法 。 实际 上 , CGroup 
本 身 只 是 机 制 和 框架 ， 而 各 子 系统 都 有 自己 的 策略 。 下 面 我 们 首先 来 了 解 一 下 CGroup 框 架 机 制 
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的 实现 ， 然 后 再 讨论 其 中 一 个 子 系统 的 实现 。 


A.3.1 核心 数据 结构 
首先 ， 我 们 给 出 了 CGroup 框 架 核心 数据 结构 之 间 的 一 个 关系 图 ， 如 图 A-9 所 示 。 


css_set table 


cgroup 


hlist_head 
css_set table[0] 

hlist_head 
css_set_table[1] 


cgroup *parent 
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图 A-9 ”CGroup 核 心 数据 结构 


O cgroup_subsys: 该 数据 结构 定义 了 CGroup 各 子 系统 需要 实现 的 接口 ， 每 个 子 系统 都 有 自 
己 的 一 个 cgroup_subsys 实 例 ， 例 如 mem cgroup_subsys 定 义 了 内 存 子 系统 的 实现 ， 
blkio_subsys 定 义 了 通用 块 子 系统 的 实现 。 各 子 系统 通过 定义 此 数据 结构 的 实例 并 实现 对 
应 的 接口 来 提供 各 自 独立 的 策略 。 

口 cgroupfs_root: 该 数据 结构 代表 的 是 我 们 挂 载 的 CGroup 文 件 系 统 的 根 目录 ， 其 中 sb 指向 
CGroup 文 件 系 统 超级 块 的 实例 ，top_cgroup 代 表 了 资源 组 的 根 节点 ，subsys_list 是 一 个 
包含 cgroup_subsys 实 例 的 链表 。 这 里 解释 一 下 ， 如 果 我 们 挂 载 CGroup 文 件 系 统 时 没有 指 
定 任何 参数 ， 则 系统 会 默认 把 所 有 的 子 系统 一 起 挂 载 到 指定 挂 载 点 上 ， 即 这 时 
cgroupfs_root 里 包含 了 所 有 的 cgroup_subsys 的 实例 。 此 外 ， 我 们 也 可 以 在 挂 载 的 时 候 指 
定 挂 载 哪个 子 系统 , 这 样 生成 的 cgroupfs_root 就 只 包含 指定 的 cgroup_subsys 实 例 。 例如 ， 
我 们 只 希望 挂 载 通用 块 子 系统 ， 则 可 以 通过 如 下 命令 完成 : 


root# mount -t cgroup -o blkio none /sys/fs/cgroup 
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O cgroup: 该 数据 结构 是 整个 CGroup 框 架 最 核心 的 一 个 数据 结构 。 实 际 上 ， 在 CGroup 文 件 
系统 下 创建 的 每 个 目录 都 对 应 一 个 cgroup 数 据 结构 ， 该 数据 结构 通过 parent 、sibling、 
children 这 3 个 成 员 构 成 了 一 颗 和 文件 系统 目录 结构 完全 一 致 的 树 型 结构 。cgroup 的 
dentry 成 员 的 作用 是 与 VFS 结 合 在 一 起 。cgroup_subsys_state 数 组 保存 了 该 资源 组 下 对 应 
的 所 有 子 系 统 的 核心 数据 结构 。 从 图 A-9 中 可 以 看 出 ,其 关联 的 cpuset 、blkcg 等 即 为 不 同 
子 系 统 的 核心 数据 结构 ， 其 中 都 包含 了 cgroup_subsys_state 这 个 成 员 。 实 际 上 ， 这 里 是 
内 核 常 用 的 一 种 多 态 的 设计 方法 , 即 cgroup 数 据 结构 里 面 的 cgroup_subsys_state[] 实 际 保 
存 的 就 是 cpuset 、blkcg 这 些 东西 , 将 来 需要 通过 内 核 的 container_of 宏 来 还 原 相应 的 数据 
结构 ， 这 在 后 面 再 详细 讨论 。 


其 实 我 们 在 使 用 CGroup 时 ， 所 做 的 挂 载 文件 系统 、 创 建 相应 目录 以 指定 资源 组 的 关系 以 
及 对 应 的 一 些 配置 工作 ,通过 上 面 的 3 个 核心 数据 结构 就 已 经 可 以 完成 了 ， 这 一 部 分 相当 于 一 
个 静态 的 资源 组 织 框架 。 我 们 后 面 要 做 的 是 将 某 些 进程 加 入 到 对 应 的 资源 组 中 ， 这 个 过 程 是 
动态 的 ， 其 实 简 单 地 说 就 是 如 何 让 代表 进程 的 task_struct 数 据 结 构 与 相应 的 cgroup 数 据 结 构 
关联 起 来 。 

一 种 最 直接 的 实现 方式 可 能 就 是 直接 在 task_struct 数 据 结 构 上 加 入 对 相应 cgroup 数 据 结构 
的 引用 , 但 是 我 们 仔细 考虑 一 下 就 知道 这 样 是 行 不 通 的 。 实际 上 ,进程 与 相应 资源 组 并 不 是 简单 
的 一 对 一 的 关系 ， 而 是 多 对 多 的 关系 。 首先, 一 个 资源 组 允许 多 个 进程 加 入 ,其 次 一 个 进程 可 能 
同时 加 入 不 同 的 资源 组 。 例 如 ， 下 面 的 案例 就 是 这 种 情况 : 


root# mount -t cgroup -o blkio blkio cg /sys/fs/cgroup/blkio 
root# mount -t cgroup -o cpu cpu_cg /sys/fs/cgroup/cpu 


root# echo $$ > /sys/fs/cgroup/blkio/tasks 

root# echo $$ > /sys/fs/cgroup/cpu/tasks 

由 于 我 们 把 不 同 的 子 系统 分 别 挂 载 到 了 不 同 的 目录 上 , 那么 假如 一 个 进程 同时 要 限制 IO 访问 
和 CPU 带 宽 , 就 需要 把 这 个 进程 同时 加 入 这 两 个 不 同 的 资源 组 中 , 这 实际 上 就 是 一 个 进程 对 应 多 
个 资源 组 的 情况 。 这 和 在 一 个 挂 载 的 CGroup 文 件 系统 下 将 进程 在 不 同 资源 组 间 移 动 是 完全 不 同 
的 ， 后 面 这 种 情况 下 ， 进 程 加 入 另 一 个 资源 组 的 同时 就 自动 在 之 前 的 资源 组 移 除 掉 了 。 


如 图 A-9 所 示 ， 内 核 通过 引入 css_set 数 据 结 构 和 cgrp_cset_link 来 将 task_struct 与 cgroup 之 
间 的 多 对 多 关系 表现 出 来 。 我 个 人 认为 这 样 做 简化 了 task_struct 数 据 结 构 ， 因 为 task_struct 已 
经 非常 庞大 了 ， 如果 直接 让 task_struct 与 cgroup 建 立 多 对 多 的 关系 ， 则 必然 还 有 一 些 相 关 成 员 要 
记录 在 task_struct 数 据 结构 上 面 ， 而 通过 引入 css_set 数 据 结 构 来 简化 task_struct 数 据 结 构 更 加 
合理 。 


O cgrp_cset_link: 该 数据 结构 完全 是 为 了 管理 css_set 与 cgroup 之 间 多 对 多 的 关系 而 存在 
的 。cgrp 成 员 指 向 对 应 的 cgroup，cset 成 员 指 向 对 应 的 css_set, 之 后 以 cgroup 数 据 结 构 的 
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cset_links 为 链表 头 串 联 了 所 有 的 cgrp_cset_ link 数 据 结构 ， 这 样 通过 cgroup 的 
cset_ links 链 表 可 以 遍历 该 资源 组 cgroup 对 应 的 所 有 css_set。 由 于 css_set 保 存 了 所 有 的 
task_struct, 这 样 也 就 可 以 遍历 cgroup 资 源 组 下 面 所 有 的 进程 task_struct。 同 理 , css_set 
里 的 cgrp_links 链 表 头 通过 cgrp_cset_link 保 存 了 该 css_set 加 入 的 所 有 资源 组 cgroup, 也 
就 是 可 以 遍历 出 一 个 进程 加 入 的 所 有 资源 组 。 

O css set: 该 数据 结构 的 tasks 成 员 保存 了 task_struct 的 链表 ，cgrp_links 链 表 头 前 面 已 经 
介绍 过 ，subsys[] 数 组 保存 了 该 css_set 加 入 的 所 有 资源 组 对 应 的 各 子 系统 核心 数据 结构 
实例 。 

O css_set_table: 整个 系统 有 一 个 全 局 的 哈 希 表 css_set_table，hlist 成 员 用 来 链接 哈 希 表 
内 同一 个 桶 内 的 所 有 css_set 实 例 。css_set table 哈 希 表 的 作用 在 于 当 我 们 需要 建立 
task_struct 与 cgroup 的 关系 时 ， 需 要 确认 当前 系统 是 否 已 经 存在 一 个 可 以 复 用 的 css_set 
数据 结构 ， 例 如 两 个 进程 所 加 入 的 资源 组 是 完全 相同 的 ， 那 么 它们 是 可 以 共享 css_set 数 
据 结构 的 。 

O task_struct: 该 数据 结构 通过 cgroups 成 员 来 访问 css_set， 随 后 通过 css_set 的 subsys [] 
数组 来 得 到 各 子 系统 在 该 资源 组 的 核心 数据 结构 的 实例 。 我 们 对 每 个 资源 组 的 一 些 具体 

配置 就 是 保存 在 subsys[] 数 组 对 应 的 实例 上 的 , 这 样 不 同 子 系统 就 通过 这 种 方式 得 到 该 进 

程 应 该 进行 哪些 资源 的 管理 和 限制 等 工作 。 


整体 CGroup 框 架 的 数据 结构 关系 就 是 这 些 ， 总 体 其 实 主 要 包括 两 部 分 内 容 ， 首 先 完成 资源 
组 的 关系 建立 ， 以 及 创建 各 子 系统 对 应 的 核心 数据 结构 ， 然 后 关联 进程 到 不 同 资源 组 。 


一 


A.3.2 ”CGroup 子 系统 初始 化 过 程 


下 面 我 们 结合 部 分 源 代码 来 详细 分 析 CGroup 的 工作 过 程 。CGroup 框 架 的 实现 代码 主要 是 
kernel/cgroup.c 这 个 文件 ， 一 些 数据 结构 定义 在 include/linux/cgroup.h 中 。 首 先 ， 我们 从 CGroup 框 
架 初 始 化 开始 介绍 。 


在 内 核 启动 函数 start_kernel 中 ( 位 于 init/main.c 文 件 中 ), 我 们 会 分 别 调用 cgroup_init_early 
和 cgroup_init 函 数 进 行 CGroup 的 初始 化 工作 ， 分 别 对 应 初始 化 的 两 个 阶段 : 第 一 个 阶段 为 调用 
cgroup_init_early， 这 是 在 内 核 各 子 系统 初始 化 之 前 进行 的 ， 主 要 初始 化 好 CGroup 框 架 结构 以 
及 某 些 CGroup 的 子 系统 ， 例 如 CPU 相关 的 CGroup 子 系统 ; 第 二 个 阶段 调用 cgroup_init 初 始 化 其 
他 不 需要 提前 构建 的 各 个 子 系统 ， 比 如 内 存 管理 CGroup 子 系统 及 通用 块 管理 的 CGroup 子 系统 。 
整体 初始 化 后 形成 的 数据 结构 关系 如 图 A-10 所 示 。 
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图 A-10 ”CGroup 初 始 化 


下 面 我 们 给 出 了 CGroup 初 始 化 的 相关 代码 : 


// cgroup.c 

1. int _ init cgroup init early(void) 

2a 

3. struct cgroup_subsys *ss; 

4. int i; 

5. 

6. atomic_set(&init_css_set.refcount, 1); 

Ts INIT_LIST_HEAD(&init_css_set.cgrp links); 
8. INIT LIST HEAD(&init_css_set.tasks); 

9. INIT_HLIST_NODE(&init_css_set.hlist); 

10. css_set_count = 1; 

11. init_cgroup_root(&cgroup_dummy root) ; 

12. cgroup root_count = 1; 

13. RCU_INIT_POINTER(init_task.cgroups, &init_css_set); 
14. 

15. init_cgrp_cset_link.cset = &init_css_set; 


16. init_cgrp_cset_link.cgrp = cgroup_dummy_top; 
17. list_add(&init_cgrp_cset_link.cset_link, &cgroup_dummy_top->cset_links); 
18. list_add(&init_cgrp_cset_link.cgrp link, &init_css_set.cgrp links); 


20. for_each builtin subsys(ss, i) { 

21. BUG_ON(!ss->name) ; 

22. BUG_ON(strlen(ss->name) > MAX_CGROUP_TYPE_NAMELEN) ; 
23. BUG_ON(!ss->css_alloc); 

24. BUG_ON(!ss->css_free); 

25. if (ss->subsys id != i) { 


26. printk(KERN_ERR "cgroup: Subsys %s id == %d\n", 


root 
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27. ss->name, ss->subsys_ id); 
28. BUG() ; 
29. } 


31. if (ss->early_init) 
32. cgroup_init_subsys(ss); 


w 
w 
= 一 


34. return 0; 

在 上 述 代码 中 , init_css set, init task、 init_cgrp cset_link.csetl &cgroup_dummy_root 
都 是 全 局 变量 。 
第 6 行 ~ 第 18 行 代码 用 于 初始 化 这 些 数据 结构 的 关系 ,第 20 行 ~ 第 33 行 代码 用 于 初始 化 CGroup 
里 需要 提前 初始 化 的 各 个 子 系统 。 


在 上 述 代码 中 , 我 们 通过 for each_builtin_subsys 来 遍历 系统 内 建 的 所 有 子 系统 ， 即 系统 定 
义 好 的 各 子 系统 的 cgroup_subsys 实 例 。for_each_builtin_subsys 的 定义 如 下 : 


// cgroup.c 


#define for each builtin subsys(ss, i) 
for ((i) = 0; (i) < CGROUP BUILTIN SUBSYS COUNT 8& 
(((ss) = cgroup_subsys[i]) || true); (i)++) 


其 中 CGROUP_BUILTIN_SUBSYS_COUNT 宏 定义 代表 当前 内 核 CGroup 内 建 的 子 系统 个 数 , cgroup_subsys 
是 一 个 全 局 的 指针 数组 ， 也 定义 在 cgroup.c 中 ， 相 关 代码 如 下 : 


// cgroup.c 


#define SUBSYS(_x) [_x ## subsys id] = & x ## _subsys, 

#define IS SUBSYS ENABLED(option) IS BUILTIN(option) 

static struct cgroup_subsys *cgroup_subsys[CGROUP_SUBSYS COUNT] = { 
#include <linux/cgroup_subsys.h> 


}; 
下 面 看 下 cgroup_subsys.h 文 件 的 内 容 : 


// cgroup_subsys.h 


#if IS_ SUBSYS ENABLED(CONFIG CPUSETS) 
SUBSYS (cpuset) 
#endif 


#if IS SUBSYS ENABLED(CONFIG CGROUP_ DEBUG) 
SUBSYS (debug) 
#endif 
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址 。 


其 中 
其 定 


#if IS SUBSYS ENABLED(CONFIG CGROUP_SCHED) 
SUBSYS(cpu_cgroup) 
#endif 


结合 在 一 起 可 以 看 出 ， 这 个 指针 数组 的 初始 化 内 容 就 是 各 个 子 系统 cgroup_subsys 实 例 的 地 


将 宏 展开 ， 会 得 到 如 下 的 表达 式 : 


static struct cgroup_subsys *cgroup_subsys[CGROUP_SUBSYS COUNT] = { 
[cpuset_subsys id] = &cpuset_subsys, 
[debug subsys_id] = &debug subsys, 
[cpu_cgroup_subsys id] = &cpu_cgroup_subsys, 


J 

cpuset_subsys_id、debug_subsys_id 等 实际 上 是 个 全 局 的 枚 举 值 , 这 里 相当 于 数组 的 索引 号 ， 
义 如 下 : 

// cgroup.h 


#define SUBSYS(_x) x ## _subsys_id, 
enum cgroup_subsys id { 
#define IS SUBSYS ENABLED(option) IS BUILTIN(option) 
#include <linux/cgroup_subsys.h> 
#undef IS SUBSYS_ ENABLED 
CGROUP_BUILTIN SUBSYS_COUNT, 


_ CGROUP_ SUBSYS_ TEMP PLACEHOLDER = CGROUP BUILTIN SUBSYS COUNT - 1, 


#define IS SUBSYS ENABLED(option) IS MODULE(option) 
#include <linux/cgroup_subsys.h> 
#undef IS SUBSYS_ ENABLED 

CGROUP_SUBSYS_COUNT, 


J; 
简单 地 说 ， 就 是 把 内 建 的 及 以 模块 形式 加 载 的 各 个 子 系统 都 包含 进来 ， 相 当 于 : 


enum cgroup_subsys_id { 
cpuset_subsys id, 
debug subsys_id, 
cpu_cgroup_subsys_ id 


J; 


最 后 ， 我 们 具体 看 一 下 某 个 子 系统 的 cgroup_subsys 的 定义 。 这 里 以 CPU 子 系统 为 例 ， 定 义 


如 下 : 
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struct cgroup_subsys cpu_cgroup_subsys = { 


.name = "cpu", 

.Css alloc = cpu_cgroup_css alloc, 
.css_ free = cpu_cgroup_css free, 
-css online = cpu_cgroup_css online, 
.css_ offline = cpu_cgroup_css offline, 
.can_attach = cpu_cgroup_can_attach, 
.attach = cpu_cgroup_attach, 
.exit = Cpu_cgroup exit, 
.Subsys_id = Cpu_cgroup_subsys_id, 
.base cftypes = Cpu_files, 

.early_init Sy 


J; 

通过 上 面 的 代码 , 我 们 可 以 理解 for_ each_builtin subsys 其 实 就 是 简单 地 遍历 所 有 内 建 的 各 个 
CGroup 子 系统 的 cgroup_subsys 实 例 ,而 后 根据 是 否 设置 了 early_init 的 标志 来 判断 是 否 需 要 进行 
提前 的 初始 化 工作 。 有 具体 的 初始 化 工作 由 cgroup_init_subsys 函 数 完成 ， 该 函数 的 代码 如 下 : 


// cgroup.c 

1. static void _ init cgroup_init_subsys(struct cgroup_subsys *ss) 
2. { 

3 struct cgroup_subsys state *css; 

4 

5. printk(KERN_INFO "Initializing cgroup subsys %s\n", ss->name); 
6 

7 mutex_lock(&cgroup_mutex); 

8 

9. cgroup_init_cftsets(ss); 

10. 

11. list_add(&ss->sibling, &cgroup_dummy_root.subsys_list); 
12. ss->root = &cgroup_dummy_root; 

13. css = ss->css_alloc(cgroup_css(cgroup_dummy_top, ss)); 
14. 

15. BUG ON(IS_ ERR(css)); 

16. init_css(css, ss, cgroup_dummy top); 

17. 

18. init_css_set.subsys[ss->subsys_id] = css; 

19. 

20. need_forkexit_callback |= ss->fork || ss->exit; 

21. 

22. BUG ON(!list empty(&init task.tasks)); 

23. 


24. BUG ON(online css(css)); 
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26. mutex_unlock(&cgroup_mutex) ; 
27. 

28. BUG_ON(ss->module) ; 

29.} 


第 9 行 代码 进行 子 系统 的 文件 初始 化 ， 对 应 的 就 是 我 们 挂 载 一 个 子 系统 时 系统 自动 为 我 们 生 
成 的 那些 文件 。 这 些 文件 实际 上 定义 在 cgroup_subsys 数 据 结构 中 。 

第 11 行 ~ 第 12 行 代码 用 于 建立 cgroup_dummy_root 与 各 子 系统 的 cgroup_subsys 实 例 的 数据 结 
构 的 关联 。 


第 13 行 代码 比较 关键 。 这 里 通过 各 子 系统 定义 的 cgroup_subsys 实 例 来 创建 各 自 的 核心 数据 
结构 ， 即 cgroup_subsys_state 的 实例 。 


对 应 的 CPU 子 系统 就 是 调用 cpu_cgroup_css_alloc 函 数 并 返回 task_group 实 例 ， 其 中 第 一 个 
成 员 是 cgroup_subsys_state， 然 后 通过 该 成 员 与 CGroup 框 架 其 他 核心 数据 结构 建立 关系 。 

第 16 行 代码 到 函数 结束 基本 上 都 是 一 些 数据 结构 的 初始 化 和 关联 操作 , 可 以 参考 前 面 的 数据 
结构 关系 图 ， 这 里 不 再 缆 述 。 
看 完 cgroup_init_early 函 数 后 ,我们 再 来 看 下 cgroup_init 函 数 。 这 个 函数 比较 长 ， 这 里 就 
不 列 出 来 了 。 总 体 上 该 函数 的 核心 功能 有 两 个 : 第 一 个 和 前 面 的 cgroup_init_early 基 本 一 样 , 会 
初始 化 其 他 没有 提前 初始 化 的 各 子 系统 , 即 遍 历 没 有 定义 early_init 的 各 cgroup_subsys 实 例 , 并 
进行 cgroup_init_subsys 操 作 。 


第 二 个 重要 工作 是 向 内 核 注册 CGroup 文 件 系统 ， 这 通过 下 面 的 代码 进行 : 


err = register_filesystem(&cgroup_fs_type); 


内 核 有 一 个 file_system type 类 型 的 全 局 变量 file_ systems， 它 以 链表 的 形式 保存 了 所 有 向 
内 核 注册 过 的 文件 系统 。file_system type 主要 提供 了 后 续 装 载 该 文件 系统 的 重要 回调 函 
数 .mount， 通 过 该 函数 来 完成 文件 系统 的 装载 工作 。 


我 们 看 一 下 cgroup_fs type 的 定义 : 


static struct file system type cgroup fs type = { 
.name = "cgroup", 
.mount = cgroup_mount, 
.kill sb = cgroup kill sb, 
}; 
对 我 们 来 说 ,最 重要 的 是 cgroup_mount 函 数 ， 该 函数 就 是 后 续 我 们 装载 CGroup 文 件 系统 时 会 
调用 的 核心 实现 方法 。 至 此 ，CGroup 框 架 的 初始 化 工作 完成 。 下 面 简单 总 结 下 CGroup 框 架 初 始 
化 所 做 的 工作 。 
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口 创建 并 初始 化 好 cgroup_dummy root 、nit css set 、cgroup_dummy top 以 及 各 子 系 统 

cgroup_subsys 数 据 结构 及 关联 关系 。 

口 通过 各 子 系统 定义 的 cgroup_subsys 实 例 ， 调 用 其 css_alloc 成 员 函 数 完成 各 子 系统 核心 数 
据 结 构 的 建立 ， 并 通过 其 首 个 成 员 cgroup_subsys_state 挂 载 到 init css set 上， 并 将 
init css_set 与 init_ task 建立 关联 。 

O 通过 register_filesystem 向 内 核 注 册 CGroup 文 件 系统 。 


A.3.3 CGroup 文 件 系统 的 挂 载 实现 


通过 前 面 文件 系统 的 注册 ， 我们 知道 当 CGroup 文 件 系统 被 装载 时 ， 内 核 最 终 会 调用 
cgroup_mount 函 数 进行 实际 的 工作 。 我 们 在 看 这 个 函数 的 实现 前 ， 先 来 了 解 一 下 VFS 挂 载 文件 系 
统 所 经 过 的 函数 调用 栈 。 总 体 过 程 仍 然 是 机 制 和 策略 分 离 的 ，VFS 提 供 通用 的 一 个 挂 载 文件 系统 
的 方法 , 各 个 文件 系统 各 自 的 初始 化 和 设置 工作 都 是 通过 file_system_type 的 mount 回 调 函 数 完 成 
AY, VFS 挂 载 文件 系统 通用 部 分 所 做 的 事情 主要 是 初始 化 文件 系统 的 super_block、 文 件 系统 根 目 
录 inode 以 及 对 应 dentry 的 关系 。 主 要 的 函数 调用 栈 如 图 A-11 所 示 。 


| SYSCALL_DEFINE5 (mount,...) | 


2 do _ new mount 
eee eS ee 


| uie barn annA Di 
ME) VTS_KEIN MOUNL i 


一 mount_fs 


E type->mount(...) 


H do_add_mount | 
图 A-11 CGroup 文 件 系 统 挂 载 过 程 中 的 函数 调用 
进入 mount 系 统 调 用 后 ， 内 核 首 先 会 根据 传 入 的 参数 确定 要 挂 载 的 文件 系统 类 型 ， 即 找到 对 
应 的 位 le_system_type 数 据 结构 实例 , 然后 根据 挂 载 的 flags 参 数 确定 执行 哪 种 挂 载 形式 ( 例如 是 
重新 挂 载 还 是 进行 全 新 的 挂 载 , 这 里 我 们 假设 是 全 新 的 挂 载 ), 最 终 内 核 会 调用 file_system type 
实例 type 的 mount 回 调 方法 ， 这 就 是 我 们 之 前 注册 CGroup 文 件 系统 时 提供 的 cgroup_mount 函 数 。 


cgroup_mount 王 数 调用 栈 如 图 A-12 所 示 。 
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cgroup_mount 


parse_cgroupfs_ options 


| cgroup_root_from_opts | 


= sget 


~ cgroup addrm files 


= cgroup_add_file 


w cgroup_create_file 


tJ cgroup populate dir 


A cgroup_addrm files | 


sire) | 
图 A-12 cgroup_mount 函 数 调用 栈 
首先 , cgroup_mount 调 用 parse_cgroupfs_options 函 数 解 析 用 户 mount 命 令 对 应 的 flags 人 参数 ， 


即 mount 命 令 中 -o 选 项 对 应 的 内 容 ， 解 析 结 果 保 存在 cgroup_sb_opts 结 构 体 中 。 该 结构 体 的 定义 
如 下 : 


struct cgroup sb opts { 
unsigned long subsys_mask; 
unsigned long flags; 
char *release_agent; 
bool cpuset_clone_children; 
char *name; 
bool none; 


struct cgroupfs root *new_root; 
}; 
下 面 简要 介绍 一 下 该 结构 体 中 各 个 成 员 的 含义 。 


O subsys_mask: 它 是 一 个 位 图 ， 每 个 位 代表 一 个 子 系统 是 否 需 要 装载 。 根 据 用 户 mount -o 
旧 定 的 子 系统 ,来 将 对 应 位 设置 成 1。 
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口 Flags: 它 代表 除了 挂 载 的 子 系统 外 的 其 他 标记 。 例 如 ,可 以 指定 noprefix, 代 表 不 对 CGroup 
文件 系统 下 自动 生成 的 文件 加 子 系统 的 前 绥 。 例 如 , 默认 的 blkio 子 系统 会 生成 blkio.weight 


文件 ， 如 果 装 载 文件 系统 时 指定 了 noprefix 人 参数， 则 对 应 的 文件 名 就 是 weight。 


口 release_agent: 其 中 存储 的 命令 会 在 某 个 CGroup 目 录 中 最 后 一 个 进程 被 移 除 时 自动 执行 。 


这 些 命令 可 以 在 装载 CGroup 文 件 系统 时 在 参数 中 指定 ， 也 可 以 在 装载 CGroup 文 件 系统 后 


向 release agent 文件 写 和 人。 


承 父 cpuset 的 配置 。 

O name: 该 参数 指 我 们 可 以 为 装载 实例 命名 ， 一 般 很 少 会 用 到 。 
O none: 标记 我 们 是 否 装 载 了 一 个 空 的 CGroup 文 件 系统 。 

O new root: 用 于 保存 后 续 生 成 的 cgroupfs_root 实 例 。 


CGroup 的 装载 选项 被 保存 到 了 cgroup_sb_opts 结 构 体 的 实例 后 , 系统 会 根据 这 个 结果 


口 cpuset_clone_children: 如 果 该 成 员 为 true， 则 代表 一 个 新 的 cpuset 初 始 化 时 ,会 自动 台 


BE 


成 对 


应 的 cgroupfs_ root 实例 ， 这 可 以 通过 cgroup_root from opts 函数 完成 ， 其 主要 流程 是 将 
cgroup_sb_opts 中 保存 的 值 复 制 到 cgroupfs_root 实 例 对 应 的 成 员 上 以 及 其 他 一 些 基 本 的 初始 化 


工作 。 


之 后 的 一 个 重要 工作 是 调用 VFS 提 供 的 通用 函数 sget 来 初始 化 CGroup 文 件 系统 的 super_block。 
理解 这 个 函数 对 于 我 们 理解 CGroup 的 装载 过 程 还 是 很 重要 的 ， 下 面 我 们 先 来 看 看 这 个 也 数 ， 其 


代码 如 下 : 
1.struct super block *sget(struct file system type *type, 
2. int (*test)(struct super block *,void *), 
3. int (*set)(struct super block *,void *), 
4. int flags, 
5. void *data) 
6.{ 
7. struct super_block *s = NULL; 
8. struct super_block *old; 
9. int err; 
10. 
11.retry: 


12. spin_lock(&sb_lock); 
13. if(test) { 


14. hlist_for_each_entry(old, &type->fs_supers, s_instances) { 
15. if (!test(old, data)) 

16. continue; 

17. if (!grab_super(old)) 

18. goto retry; 

19. if (s) { 

20. up_write(&s->s_umount); 

21. destroy _super(s); 


22. s = NULL; 
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23 . } 

24. return old; 

25. } 

26. } 

27. if (!s) { 

28. spin_unlock(&sb_lock) ; 

29. s = alloc_super(type, flags); 
30. if (Is) 

31. return ERR_PTR(-ENOMEM) ; 
32. goto retry; 

33. } 

34. 


35. err = set(s, data); 
36. if (err) { 


37. spin_unlock(&sb_lock); 
38. up_write(&s->s_umount) ; 
39. destroy_super(s); 

40. return ERR _PTR(err); 
41. } 


42. s->s_type = type; 

43. strlcpy(s->s_id, type->name, sizeof(s->s_id)); 

44. list_add_tail(&s->s_list, &super_blocks); 

45. hlist_add_head(&s->s_instances, &type->fs_supers); 
46. spin_unlock(&sb_lock); 

47. get_filesystem(type) ; 


48. register_shrinker(&s->s_shrink); 
49. return s; 

50.} 

51. 


52.EXPORT_SYMBOL(sget) ; 


第 13 行 ~ 第 26 行 代码 遍历 传人 文件 系统 file_system_type 实 例 的 fs 


_supers 链 表 , 该 链表 保存 


了 具体 一 个 文件 系统 实例 下 面 创建 的 所 有 super_block 实 例 ， 这 里 就 是 得 到 我 们 注册 的 CGroup 文 


件 系统 实例 下 所 有 的 super_block ， 并 根据 传 和 信 的 test 回 调 函 数 来 关 


1 断 是 否 可 以 复 用 之 前 的 


super_block。 如果 该 回调 函数 返回 true, 并 且 后 面 第 17 行 代码 通过 grab_super 增 加 该 super_block 
实例 的 引用 成 功 ， 则 在 第 24 行 代码 中 直接 返回 已 经 存在 的 super_block 实 例 。 


我 们 传人 的 test 回 调 函 数 实际 上 是 cgroup_test_super ， 它 是 在 调 月 


/* 定位 到 一 个 已 经 存在 的 Super block 或 新 建 一 个 Super block */ 
sb = sget(fs_type, cgroup test_super, cgroup_set_super, 0, &opts); 


接 下 来 我 们 看 一 下 cgroup_test_super 这 个 函数 的 实现 : 


1. static int cgroup test super(struct super_block *sb, void *data) 
pee | 

3. struct cgroup_sb opts *opts = data; 

4 struct cgroupfs_ root *root = sb->s_fs_info; 


有 sget 时 传 和 的: 
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5 

6. if (opts->name && strcmp(opts->name, root->name) ) 
7. return 0; 

8 

9. if ((opts->subsys mask || opts->none) 

10. && (opts->subsys_mask != root->subsys_mask)) 
11. return 0; 

12. 

13. return 1; 

14.} 


MATEA sget KÁŤA, UMRAO, (ARAWAZA CEN super_blockc i, 1% 
函数 主要 是 两 条 判断 语句 。 

第 6 行 代码 判断 挂 载 时 是 否 指定 了 名 字 ， 即 命令 中 是 否 包含 -o name=xxx 选 项 。 如 果 指 定 了 名 
字 ， 则 会 判断 当前 super_block 实 例 对 应 的 名 字 是 否 完全 相同 。 如 果 名 字 不 匹配 ， 则 直接 返回 0， 
即 不 能 复 用 该 super_block。 

第 9 行 ~ 第 11 行 代码 通过 subsys_mask 位 图 来 判断 当前 mount 命 令 指定 的 子 系 统 是 否 与 传人 的 
super_block 实 例 的 子 系统 完全 相同 ， 如 果 不 同 ， 则 直接 返回 0。 

整个 函数 的 功能 其 实 就 是 检测 是 否 可 以 复 用 函数 传人 的 super_block 实 例 。 如 果 mount 选 项 指 
定 了 名 字 ， 则 名 字 必 须 完 全 匹配 ， 并 且 mount 指 定 的 所 有 子 系统 也 必须 完全 一 样 ， 这 样 就 可 以 复 
用 原来 已 经 存在 的 super_block 实 例 了 。 


我 们 继续 回 到 sget 函 数 中 ， 如 果 没 有 可 以 复 用 的 super_block， 则 代码 向 下 继续 执行 。 
第 27 行 ~ 第 33 行 代码 通过 alloc_super 函 数 分 配 super_block。 


第 35 行 代码 通过 函数 传人 的 set 回 调 函 数 来 初始 化 我 们 刚刚 分 配 的 super_block 数 据 结 构 。 传 
人 的 回调 孔 数 实际 上 是 cgroup_set_super， 下 面 我 们 来 看 一 下 这 个 函数 ， 其 代码 如 下 : 


1. static int cgroup_set_super(struct super block *sb, void *data) 
2. { 

3 int ret; 

4 struct cgroup_sb opts *opts = data; 

5. 

6 if (!opts->new_root) 

7 return -EINVAL; 

8 

9. BUG_ON(!opts->subsys_mask && !opts->none) ; 
10. 

11. ret = set_anon_super(sb, NULL); 

12. if (ret) 

13. return ret; 
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15. sb->s_fs_info = opts->new_root; 
16. opts->new_root->sb = sb; 
17. 


18. sb->s_blocksize = PAGE_CACHE_SIZE; 
19. sb->s_blocksize bits = PAGE_CACHE SHIFT; 
20. sb->s_magic = CGROUP_SUPER MAGIC; 


21. sb->s_op = &cgroup_ops; 
22. 

23. return 0; 

24.} 


第 6 行 ~ 第 9% 行 代码 做 一 些 基本 的 验证 和 判断 ， 主 要 是 确认 之 前 需要 初始 化 的 几 个 成 员 。 


第 11 行 代码 通过 set_anon_super 消 数 来 分 配 super_block 实 例 对 应 的 虚拟 设备 号 , 并 将 其 保存 
在 super_block 的 s_dev 成 员 中 ， 这 里 不 再 详细 展开 。 


第 15 行 代码 将 我 们 新 分 配 的 cgroupfs_root 数 据 结 构 放 入 super_block 的 s_fs_info 成 员 中 。 该 
成 员 用 于 保存 文件 系统 的 私有 核心 数据 结构 。 


第 15 行 ~ 第 20 行 代码 进行 super_block 其 他 一 些 成 员 的 默认 初始 化 工作 。 第 21 行 代码 为 
super_block 注 册 了 super_operations 的 回调 函数 为 cgroup_ops。 


继续 回 到 前 面 的 sget 函 数 ,第 42 行 代码 到 结束 主要 将 新 分 配 和 初始 化 好 的 super_block 实 例 加 
人 到 全 局 的 super_blocks 链 表 中 ,同时 将 其 加 入 到 CGroup 文 件 系 统 file_system type 的 fs_supers 
链表 中 。 后 面 的 register_shrinker 消 数 主要 用 于 注册 一 些 回调 方法 , 在 内 存 紧 张 时 可 以 通过 该 接 
口 帮助 内 存 子 系统 回收 一 些 缓存 资源 。 


我 们 回 到 cgroup_mount 函 数 的 主流 程 中 ， 该 函数 后 续 通 过 调用 cgroup_addrm_files 来 生成 
CGroup 框 架 的 相关 文件 ， 例 如 tasks 文 件 等 。cgroup_addrm files 函 数 的 定义 如 下 : 


1. static int cgroup addrm files(struct cgroup *cgrp, struct cftype cfts[]， 
2 bool is add) 

3. { 

4. struct cftype *cft; 

5. int ret; 

6 

7 lockdep_assert_held(&cgrp->dentry->d_inode->i_mutex) ; 

8 lockdep_assert_held(&cgroup_mutex) ; 

9. 

10. for (cft = cfts; cft->name[o] != '\o'; cft++) { 

11. if ((cft->flags & CFTYPE_INSANE) && cgroup_sane_behavior(cgrp)) 
12. continue; 

13. if ((cft->flags & CFTYPE_NOT_ON ROOT) 8& !cgrp->parent) 

14. continue; 

15. if ((cft->flags & CFTYPE_ONLY ON ROOT) && cgrp->parent) 


16. continue; 
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17. 

18. if (is_add) { 

19. ret = cgroup_add_file(cgrp, cft); 
20. if (ret) { 

21. pr_warn("cgroup_addrm_files: failed to add %s, err=%d\n", 
22. cft->name, ret); 

23. return ret; 

24. } 

25. } else { 

26. cgroup rm file(cgrp, cft); 

27. } 

28. } 

29. return 0; 

30.} 


该 函数 的 功能 是 遍历 我 们 传人 的 cfts 数 组 , 它 根 据 is_add 标 志 依 次 调用 cgroup_add_file 或 者 
cgroup_im_file 函 数 来 创建 或 删除 cgroup 文 件 。 这 里 我 们 传人 的 is_add 参 数 为 true， 也 就 是 说 需 
要 创建 cfts 数 组 里 的 所 有 文件 。cfts 数 组 在 调用 该 函数 时 指定 的 是 cgroup_base files， 下 面 我 们 
看 一 下 这 个 数组 的 内 容 : 


static struct cftype cgroup_base files[] = { 


{ 
.name = "cgroup.procs", 
.open = cgroup procs open, 
-write_u64 = cgroup procs write, 
.release = cgroup pidlist_release, 
«mode = S IRUGO | S_IWUSR, 
b 
{ 
.name = "cgroup.event_control", 
-write_string = cgroup_write_event_control, 
.mode = S IWUGO, 
b 
{ 
.name = "cgroup.clone_children", 
.flags = CFTYPE_INSANE, 
.read u64 = cgroup_clone_children_read, 
-write_u64 = cgroup_clone_children_write, 
b 
{ 
.name = "cgroup.sane_behavior", 
.flags = CFTYPE_ONLY_ON_ROOT, 
.read seq string = cgroup sane_behavior_show, 
b 
{ 


.name = "tasks", 
.flags = CFTYPE_INSANE, 
.open = cgroup_tasks_open, 


266 MRA 数据 库 与 IO 资源 控制 


-write_u64 = cgroup_tasks write, 
-release = cgroup pidlist_release, 
«mode = S IRUGO | S_IWUSR, 


b 
{ 
.name = "notify_on_release", 
.flags = CFTYPE_INSANE, 
.read_u64 = cgroup_read_notify_on_release, 
-write_u64 = cgroup write notify on release, 
b 
{ 
.name = "release_agent", 
.flags = CFTYPE_INSANE | CFTYPE_ONLY_ON_ROOT, 
.read seq string = cgroup_release_agent_show, 
-write_string = cgroup_release_agent_write, 
-max_write_len = PATH MAX, 
b 
{} 


}; 


从 上 面 的 定义 能 够 看 出 ， 该 数组 定义 了 CGroup 框 架 本 身 所 包含 的 一 些 配 置 文件 以 及 相关 的 
读 写 回 调 函 数 。 下 面 我 们 看 一 下 cftype 数 据 结构 的 定义 : 


struct cftype { 
char name[MAX_CFTYPE_NAME]; 
int private; 
umode_t mode; 
size_t max_write_len; 
unsigned int flags; 
struct cgroup_subsys *ss; 


int (*open) (struct inode *inode, struct file *file); 
ssize_t (*read)(struct cgroup subsys state *css, struct cftype *cft, 
struct file *file, 
char _ user *buf, size_t nbytes, loff_t *ppos); 
u64 (*read_u64)(struct cgroup subsys state *css, struct cftype *cft); 
s64 (*read_s64)(struct cgroup subsys state *css, struct cftype *cft); 
int (*read_map)(struct cgroup subsys state *css, struct cftype *cft, 
struct cgroup_map_cb *cb); 
int (*read_seq_string)(struct cgroup_subsys state *css, 
struct cftype *cft, struct seq file *m); 


ssize_t (*write) (struct cgroup_subsys state *css, struct cftype *cft, 
struct file *file, 
const char _user *buf, size_t nbytes, loff t *ppos); 
int (*write_u64)(struct cgroup_subsys state *css, struct cftype *cft,u64 val); 
int (*write_s64)(struct cgroup_subsys state *css, struct cftype *cft,s64 val); 
int (*write_string) (struct cgroup_subsys state *css, struct cftype *cft, 
const char *buffer); 
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int (*trigger)(struct cgroup_subsys_ state *css, unsigned int event); 
int (*release)(struct inode *inode, struct file *file); 


int (*register_event)(struct cgroup_subsys state *css, 
struct cftype *cft, struct eventfd_ctx *eventfd, 
const char *args); 
void (*unregister_event)(struct cgroup_subsys state *css, 
struct cftype *cft, 
struct eventfd_ctx *eventfd); 


ie 

该 数据 结构 包含 的 成 员 比 较 多 ， 我 们 就 不 一 一 解释 了 。 实 际 上 ，CGroup 文 件 系统 中 每 个 自 
动 生成 的 文件 都 是 该 数据 结构 类 型 的 一 个 实例 。 该 数据 结构 定义 了 这 些 文件 的 文件 名 、 读 写 回 调 
函数 以 及 注册 相关 事件 的 回调 函数 等 。 


我 们 继续 看 看 cgroup_add_ file 函数 的 实现 : 


1. static int cgroup add file(struct cgroup *cgrp, struct cftype *cft) 
2. { 

3 struct dentry *dir = cgrp->dentry; 

4. struct cgroup *parent = __d_cgrp(dir); 

5. struct dentry *dentry; 

6 struct cfent *cfe; 

7 int error; 

8 umode_t mode; 

9. char name[MAX_CGROUP_TYPE_NAMELEN + MAX CFTYPE_NAME + 2] = { 0 }; 
10. 

11. if (cft->ss && !(cft->flags & CFTYPE NO PREFIX) && 

12. !(cgrp->root->flags & CGRP_ROOT_NOPREFIX)) { 

13. strcpy(name, cft->ss->name) ; 

14. strcat(name, "."); 

15. } 

16. strcat(name, cft->name) ; 

17. 

18. BUG_ON(!mutex_is_locked(&dir->d_inode->i_mutex)); 

19. 


20. cfe = kzalloc(sizeof(*cfe), GFP_KERNEL); 
21. if (!cfe) 


22. return -ENOMEM; 

23. 

24. dentry = lookup_one_len(name, dir, strlen(name)); 
25. if (IS_ERR(dentry)) { 

26. error = PTR_ERR(dentry); 

27. goto out; 

28. } 

29. 


30. cfe->type = (void *)cft; 
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31. cfe->dentry = dentry; 

32. dentry->d_fsdata = cfe; 

33. simple_xattrs_init(&cfe->xattrs) ; 

34. 

35. mode = cgroup file _mode(cft); 

36. error = cgroup_create_file(dentry, mode | S_IFREG, cgrp->root->sb); 
37. if (!error) { 


38. list_add_tail(&cfe->node, &parent->files); 
39. cfe = NULL; 

40. } 

41. dput (dentry) ; 

42.out: 

43. kfree(cfe); 

44. return error; 

45.} 


第 11 行 ~ 第 16 行 代码 根据 该 文件 所 在 的 子 系统 以 及 文件 本 身 的 名 字 , 拼接 出 实际 要 生成 文件 
的 名 字 。 如 果 挂 载 时 指定 了 noprefix 或 者 文件 定义 本 身 标 记 了 noprefix， 则 文件 名 中 不 包含 子 系 
统 的 名 字 。 


第 20 行 代码 分 配 一 个 cfent 类 型 的 变量 cfe, 该 类 型 代表 的 含义 是 CGroup 文 件 和 人口 ,实际 相当 
于 是 通用 上 日 录 项 dentry 数 据 结构 的 扩展 ，cfe 存 储 在 文件 对 应 的 目录 项 dentry 的 d_fsdata 域 ,该 域 
用 来 存放 具体 文件 系统 目录 项 dentry 的 私有 数据 结构 。 第 30 行 ~ 第 33 行 代码 就 是 实现 这 个 过 程 的 。 

第 24 行 代码 通过 lookup_one_len 查 找 并 创建 待 生 成 文件 的 dentry 数 据 结 构 。 在 VFS 中 , dentry 
抽象 了 整个 文件 系统 目录 的 层次 结构 。 

第 36 行 代码 通过 cgroup_create_file 来 创建 和 初始 化 文件 对 应 的 索引 结 点 。 创 建成 功 后 ， 第 
38 行 代码 将 cfe 加 入 到 父 cgroup 的 files 链 表 中 。 


我 们 再 看 一 下 cgroup_create file 函数 ， 其 代码 如 下 : 


1. static int cgroup create_file(struct dentry *dentry, umode_t mode, 
2. struct super block *sb) 
3. { 

4. struct inode *inode; 

5. 

6 if (!dentry) 

7 return -ENOENT; 

8 if (dentry->d_inode) 

9. return -EEXIST; 

10. 

11. inode = cgroup_new_inode(mode, sb); 

12 . if (!inode) 

13. return -ENOMEM; 

14. 


15. if (S_ISDIR(mode)) { 
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16. inode->i_op = &cgroup dir inode operations; 
17. inode->i_fop = &simple dir operations; 

18. 

19. inc_nlink(inode) ; 

20. inc_nlink(dentry->d_parent->d_inode) ; 

21. 

22. WARN_ON_ONCE( !mutex_trylock(&inode->i_mutex)); 
23. } else if (S_ISREG(mode)) { 

24. inode->i_size = 0; 

25. inode->i_fop = &cgroup_file_operations; 

26. inode->i_op = &cgroup file inode_operations; 
27. } 

28. d_instantiate(dentry, inode); 

29. dget(dentry) ; 

30. return 0; 

31.} 


第 11 行 代码 创建 inode 数 据 结 构 。 


第 15 行 ~ 第 27 行 代码 根据 当前 文件 的 类 型 是 目录 还 是 普通 文件 来 初始 化 jnode 数 据 结构 。 这 
里 主要 是 指定 i_fop 和 i_op 两 个 成 员 , 它们 分 别 对 应 们 ]e_operations 和 inode_operations 类 型 。 对 
于 目录 ,我们 主要 关心 i_op 成 员 ， 里 面 定义 了 操作 inode 节 点 的 特定 回调 方法 ， 例 如 创建 CGroup 
目录 等 。 对 于 文件 ， 我 们 主要 关心 i_fop 成 员 ， 里 面 定 义 了 文件 读 写 的 特定 回调 方法 。 

第 28 行 代码 将 分 配 的 inode 数 据 结 构 与 文件 的 dentry 建 立 关 联 。 


我 们 再 详细 看 一 下 cgroup_dir inode operations 及 cgroup file operations 的 定义 : 


static const struct file_operations cgroup file operations = { 
.read = cgroup_file_read, 
.write = cgroup file write, 
.llseek = generic file llseek, 
.open = cgroup_file_open, 
.release = cgroup file release, 


}3 


static const struct inode_operations cgroup dir inode operations = { 
.lookup = simple lookup, 
.mkdir = cgroup_mkdir, 
.Imdir = cgroup_ rmdir, 
.rename = cgroup rename, 
.Setxattr = cgroup_ setxattr, 
-getxattr = cgroup getxattr, 
.listxattr = cgroup_listxattr, 
-removexattr = cgroup_removexattr, 


}; 
当 读 写 CGroup 文 件 系统 中 自动 生成 的 那些 文件 时 ,内 核 VFS 最 终 会 调用 cgroup_file_operations 
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里 定义 的 那些 读 写 函 数 。 当 创建 或 者 删除 目录 时 ， 内 核 最 终 会 调用 cgroup_dir_inode_operations 
里 的 那些 回调 函数 。 后 面 我 们 再 详细 讨论 这 个 过 程 。 


现在 继续 回 到 主流 程 。cgroup_mount 最 后 进行 的 步骤 是 rebind_subsystems ， 该 函数 的 主要 功 
能 是 生成 各 子 系统 的 相关 配置 文件 ， 初 始 化 好 cgroupfs_root 的 top_cgroup 成 员 与 nount 上 的 子 系 
统 cgroup_subsys 及 cgroup_subsys_state 的 关系 ( 这 部 分 工作 主要 通过 调用 cgroup-populate-dir 
函数 完成 )， 最 终 调用 各 个 子 系统 的 cgroup_subsys 的 pind 方 法 来 完成 子 系统 特定 的 逻辑 。 


下 面 我 们 看 一 下 cgroup_populate dir 的 代码 : 


1. static int cgroup_populate_dir(struct cgroup *cgrp, unsigned long subsys_mask) 
PATE | 

3. struct cgroup_subsys *ss; 

4. int i, ret = 0; 

5. 

6 for each subsys(ss, i) { 

7 struct cftype set *set; 

8 

9 if (!test_bit(i, &subsys_mask)) 

10. continue; 

11. 

12. list_for_each_entry(set, &ss->cftsets, node) { 
13. ret = cgroup addrm files(cgrp, set->cfts, true); 
14. if (ret < 0) 

15. goto err; 

16. } 

17. } 

18. return 0; 

19.err: 

20. cgroup clear _dir(cgrp, subsys_mask); 

21. return ret; 

224} 


这 段 代 码 主要 是 一 个 两 层 循环 : 外 层 是 第 7 行 ~ 第 17 行 代码 ， 用 于 遍历 所 有 的 子 系统 ; 内 层 
是 第 12 行 ~ 第 16 行 代码 ， 用 于 遍历 cgroup_subsys 数 据 结 构 中 cftsets 链 表 的 所 有 成 员 。 该 链表 的 
节点 数据 类 型 如 下 : 


struct cftype set { 
struct list head node; 
struct cftype *cfts; 
B 
其 中 node 成 员 用 于 链接 cgroup_subsys 的 cftsets 链 表 。cfts 成 员 实际 上 是 一 组 cftype 实 例 , 对 应 一 组 
cgroup 的 配置 文件 ， 该 数据 类 型 前 面 已 经 提 到 ， 这 里 不 多 解释 了 。 每 个 子 系统 的 cgroup 配 置 文件 都 
是 挂 载 在 cgroup_subsys 的 cftsets 链 表 上 的 。 每 个 cftype_set 实 例 对 应 一 组 相关 的 文件 , 不 同 组 之 间 
的 文件 一 般 是 不 同 的 策略 。 内 核 通过 cgroup_add_cftypes 函 数 向 cgroup_subsys 加 入 配置 文件 。 


附录 A 数据 库 与 IO 资源 控制 271 


cgroup_populate dir 函数 实际 上 就 是 过 历 所 有 子 系统 的 配置 文件 ， 然 后 通过 cgroup_ 
addrm_files 来 增删 对 应 的 文件 , 我 们 这 里 传 入 的 参数 true 代 表 增 加 文件 。cgroup 文 件 系统 中 的 大 
部 分 文件 都 是 在 这 里 创建 出 来 的 。 


最 后 ， 我 们 看 一 下 rebind_subsystems 函 数 剩 余部 分 的 主要 代码 : 


1. static int rebind_subsystems(struct cgroupfs_root *root, 

2. unsigned long added_mask, unsigned removed_mask) 
3. { 

4. ahs 

5. for_each_subsys(ss, i) { 

6 unsigned long bit = 1UL << i; 

7 

8 if (bit & added_mask) { 

9. BUG_ON(cgroup_css(cgrp, ss)); 

10. BUG_ON(!cgroup_css(cgroup dummy top, ss)); 

11. BUG_ON(cgroup_css(cgroup_dummy_ top, ss)->cgroup != cgroup dummy top); 
12. 

13. rcu_assign_pointer(cgrp->subsys[i], 

14. cgroup_css(cgroup_dummy_top, ss)); 
15. cgroup_css(cgrp, ss)->cgroup = cgrp; 

16. 

17. list_move(&ss->sibling, &root->subsys list); 

18. ss->root = root; 

19. if (ss->bind) 

20. ss->bind(cgroup_css(cgrp, ss)); 

21. 

22. root->subsys_ mask |= bit; 

23. } else if (bit & removed mask) { 

24. 

25. } 

26. } 

27. 

28. 

29. 

30.} 


最 后 一 部 分 主要 是 第 5 行 ~ 第 26 行 代码 ， 用 于 遍历 所 有 子 系统 ， 根 据 前 面 初始 化 好 的 
cgroupfs_root 的 subsys_mask 成 员 执 行 相关 子 系 统 的 特定 逻辑 ， 这 里 函数 传 入 的 参数 
removed_mask 为 0， 所 以 我 们 直接 忽略 第 23 行 代码 后 面 的 分 支 语句 。 


第 13 行 ~ 第 15 行 代码 主要 将 各 个 子 系统 对 应 的 实例 与 挂 载 上 来 的 CGroup 文 件 系 统 的 相关 实 
例 进行 关联 。 

第 17 行 ~ 第 18 行 代码 将 相应 的 cgroup_subsys 实 例 挂 载 到 cgroupfs_root 的 subsys_1ist 链 表 头 
中 ， 并 建立 反 向 指向 cgroupfs_root 的 指针 。 
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第 19% 行 ~ 第 20 行 代码 ,根据 cgroup_subsys 是 否 指定 bind 回 调 函 数 来 执行 子 系统 特定 的 代码 。 
我 们 后 面 再 讨论 子 系统 特定 的 实现 逻辑 。 


整个 cgroup_mount 函 数 的 执行 过 程 已 分 析 完 毕 , 下 面 我 们 看 一 下 在 CGroup 文 件 系 统 下 创建 一 
个 目录 内 核 时 对 应 的 代码 执行 路 径 。 在 CGroup 文 件 系 统 下 创建 目录 内 核 时 ， 首 先 执 行 的 是 VFS 
部 分 的 通用 逻辑 代码 ， 其 代码 调用 关系 如 图 A-13 所 示 。 


内 核 先 通 过 user_path_create 做 路 径 查 找 并 创建 好 待 创建 目录 的 inode 数 据 结 构 ， 之 后 在 
vfs_mkdir 中 调用 该 inode 的 mkdir 回 调 方 法 ， 这 里 对 应 的 就 是 cgroup_mkdir。 


| SYSCALL_DEFINE2 (mkdir,...) | 


ero 


— user_path create | 

— vfs mkdir | 

I} dir->i_op->mkdir | 
图 A-13 VFS 创建 目录 调用 关系 图 

cgroup_mkdir 函 数 的 执行 路 径 如 图 A-14 所 示 ， 其 代码 如 下 所 示 。 


cgroup_mkdir 
一 cgroup create 


cgroup_create_ file ] 


ss->css_online | 


cgroup addrm files 


J 
— cgroup_populate_dir | 


图 A-14 cgroup_mkdir 函 数 的 执行 路 径 
我 们 看 一 下 cgroup_mkdir 的 代码 : 


1. static int cgroup mkdir(struct inode *dir, struct dentry *dentry, umode t mode) 
2. { 

3 struct cgroup *c_parent = dentry->d_parent->d_fsdata; 

4. 

5 return cgroup_create(c_parent, dentry, mode | S_IFDIR); 

6. } 
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第 3 行 代码 通过 dentry 的 d_parent 成 员 找 到 待 创建 目录 的 父 目 录 结 构 , 之 后 通过 父 目 录 dentry 
的 d_fsdata 成 员 得 到 cgroup 的 实例 。 


第 5 行 代码 返 回 cgroup_create 函 数 调用 的 结果 。 由 于 cgroup_create 孙 数 的 代码 非常 多 ,所 以 
这 里 只 罗列 部 分 重要 的 函数 调用 逻辑 。 


首先 创建 相应 的 cgroup 数 据 结构 实例 , 然后 进行 必要 的 一 些 成 员 初 始 化 工作 , 相关 代码 如 下 : 


1. static long cgroup_create(struct cgroup *parent, struct dentry *dentry, 
2. umode_t mode) 

3. { 

4 soi 

5. atomic_inc(&sb->s_active) ; 

6 

7 init_cgroup_housekeeping(cgrp) ; 

8 

9. dentry->d_fsdata = cgrp; 

10. cgrp->dentry = dentry; 

11. 

12. cgrp->parent = parent; 

13. cgrp->dummy_css.parent = &parent->dummy_css; 

14. cgrp->root = parent->root; 

15. 

16. if (notify_on_release(parent) ) 

17. set_bit(CGRP_NOTIFY_ON_ RELEASE, &cgrp->flags); 

18. 

19. if (test_bit(CGRP_CPUSET_CLONE CHILDREN, &parent->flags)) 
20. set_bit(CGRP_CPUSET_CLONE CHILDREN, &cgrp->flags); 
21. 

22.} 


PSIE cgro C+ A Bisuper_blockM S| Hita, Py Ecgroup th KAKA 
第 7 行 代码 调用 init_cgroup_housekeeping 初 始 化 cgroup 的 一 些 成 员 ， 这 里 不 详细 列 出 。 
第 9 行 ~ 第 10 行 代码 将 VFS 的 dentry 与 相应 的 cgroup 数 据 结构 之 间 建 立 关 联 。 

第 12 行 ~ 第 14 行 代码 建立 cgroup 的 层级 关系 。 


第 16 行 ~ 第 20 行 代码 根据 保存 在 父 cgroup 实 例 上 的 文件 系统 装载 标志 来 设置 相应 新 建 的 
cgroup 实 例 的 flags 成 员 。 


随后 ， 该 函数 进行 如 下 催 辑 : 


for each root subsys(root, ss) { 
struct cgroup_subsys state *css; 
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} 


css = ss->css_alloc(cgroup_css(parent, ss)); 
if (IS_ERR(css)) { 

err = PTR_ERR(css); 

goto err_free_all; 


} 


css_ar[ss->subsys id] = css; 
err = percpu_ref_init(&css->refcnt, css_release); 
if (err) 


goto err_free_all; 


init_css(css, ss, cgrp); 


这 段 代 码 遍 历 该 装载 实例 对 应 的 所 有 子 系 统 ， 然 后 分 别 调用 子 系统 cgroup_subsys 的 
css_alloc 函 数 进 行 子 系统 核心 数据 结构 的 分 配 和 创建 工作 , FP init_css PRO UE TLE a 
的 初始 化 工作 。init css 函数 的 代码 如 下 : 


S 
E 


Vs 
2 
3 
4. 
5. 
6 
7 
8 
9 


13. 
14. } 


tatic void init_css(struct cgroup_subsys_state *css, struct cgroup_subsys *ss, 
struct cgroup *cgrp) 


css->cgroup = cgrp; 
CSS->SS = SS; 
css->flags = 0; 


if (cgrp->parent) 

css->parent = cgroup_css(cgrp->parent, ss); 
else 

css->flags |= CSS_ROOT; 


BUG_ON(cgroup_css(cgrp, ss)); 


这 段 代 码 主要 是 初始 化 子 系统 核心 数据 结构 cgroup_subsys_state 实 例 与 当前 新 建 的 cgroup 
以 及 cgroup_subsys 的 关系 ， 并 建立 好 cgroup_subsys_state 的 父子 关系 。 


在 C 


Group 文件 系统 下 创建 目录 的 逻辑 基本 就 是 这 些 ， 下 面 我 们 来 看 一 下 将 某 个 进程 加 入 到 


CGroup 资 源 组 内 核 所 做 的 工作 。 前 面 已 经 介绍 过 将 指定 进程 加 入 资源 组 的 方法 是 将 该 进程 的 pid 
写 人 相应 资源 组 目录 的 tasks 文 件 ， 整 个 文件 写 和 人 从 VFS 开 始 的 代码 调用 栈 如 图 A-15 所 示 。 
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= file->f_op->write (cgroup file write) 


cft->write (cgroup tasks write) 


attach_task_by pid 
cgroup_attach_task 
cgroup_task_migrate 


ss->attach 


图 A-15 ”VFS 文件 写 入 调用 关系 图 
代码 进入 VFS 后 ,首先 根据 打开 的 文件 file 数 据 结构 来 调用 f_op->write 函 数 。 这 个 函数 指针 
实际 上 是 在 文件 被 打开 时 ， 从 inode->i fop 那 里 复制 过 来 的 ， 这 里 对 应 的 回调 函数 是 
cgroup file write。 下面 我 们 看 看 cgroup_file write 的 代码 : 


1. static ssize t cgroup file write(struct file *file, const char _user *buf, 


2. size_t nbytes, loff_t *ppos) 

3. { 

4. struct cfent *cfe = _d_cfe(file->f_dentry); 

5. struct cftype *cft = _d_cft(file->f_dentry); 

6. struct cgroup_subsys state *css = cfe->css; 

7. 

8. if (cft->write) 

9. return cft->write(css, cft, file, buf, nbytes, ppos); 

10. if (cft->write_u64 || cft->write_s64) 

11. return cgroup_write_X64(css, cft, file, buf, nbytes, ppos); 
12. if (cft->write_string) 

13. return cgroup_write_string(css, cft, file, buf, nbytes, ppos); 
14. if (cft->trigger) { 

15. int ret = cft->trigger(css, (unsigned int)cft->private); 
16. return ret ? ret : nbytes; 

17. } 

18. return -EINVAL; 

19.} 


现在 我 们 先 将 第 4 行 ~ 第 5 行 代码 的 两 个 宏 定 义 列 出 来 : 


static inline struct cfent * d cfe(struct dentry *dentry) 


{ 


return dentry->d_fsdata; 


} 


static inline struct cftype * d cft(struct dentry *dentry) 
{ 


276 WRA 数据 库 与 IO 资源 控制 


return __d_cfe(dentry)->type; 

} 

可 以 看 到 ， 第 4 行 ~ 第 5 行 代码 主要 是 通过 当前 文件 对 应 的 dentry 数 据 结构 取得 之 前 存 入 在 
dentry 的 d_fsdata 成 员 中 的 cftype 实 例 。 根 据 前 面 cgroup_base_files 的 定义 ,我 们 得 到 了 当前 
tasks 文 件 的 cft->write 回 调 函 数 ， 这 里 对 应 的 是 cgroup_tasks_write 函 数 ， 该 函数 直接 调用 
attach_task_by_pid 函 数 ， 相 关 代 码 如 下 : 


static int cgroup tasks _write(struct cgroup_subsys_state *css, 
struct cftype *cft, u64 pid) 
{ 


return attach task by pid(css->cgroup, pid, false); 


} 
这 里 特殊 说 明 一 下 ，attach_task_by_pid 函 数 的 第 三 个 参数 false 代 表 我 们 传人 的 pid 实 际 上 
是 一 个 进程 的 pid， 而 不 是 tgid。 


attach_task_by_pid 函 数 内 部 会 根据 传人 的 pid 来 查找 到 对 应 进程 的 task_struct 数 据 结构 , 随 
后 调用 cgroup_attach_ task 函数 。 


cgroup_attach_task 函 数 比 较 长 ， 这 里 我 们 一 部 分 一 部 分 地 讨论 。 首 先 ， 函 数 会 根据 传 入 的 
进程 ID 来 收集 涉及 的 所 有 线程 并 将 其 保存 到 一 个 flex_array 类 型 的 容器 中 ， 相 关 代码 如 下 : 


l do { 


1. 

2. struct task_and_cgroup ent; 

3. 

4. if (tsk->flags & PF_EXITING) 

5. goto next; 

6. 

Ts BUG_ON(i >= group_size); 

8. ent.task = tsk; 

9. ent.cgrp = task_cgroup_from_root(tsk, root); 
10. if (ent.cgrp == cgrp) 

11. goto next; 

12. retval = flex_array_put(group, i, &ent, GFP_ATOMIC); 
13. BUG_ON(retval != 0); 

14. i++; 

15. next: 

16. if (!threadgroup) 

17. break; 

18. } while each thread(leader, tsk); 

19.... 


在 上 述 代 码 中 ，while_each_thread 宏 用 来 遍历 传人 的 tsk 进 程 包含 的 所 有 线程 。 上 述 代 码 使 
用 task_and_cgroup 数 据 结构 来 保存 对 应 线程 的 数据 结构 task_struct 以 及 线程 原来 所 属 的 
cgroup。 第 12 行 代码 将 task_and_cgroup 实 例 放 入 flex_array 容 器 中 。 
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在 这 之 后 ，cgroup_attach_task 消 数 会 遍历 所 有 的 cgroup_subsys 实 例 并 调用 can_attach 消 数 


来 判断 是 否 可 以 将 指定 进程 加 入 该 资源 组 ， 相 关 代码 如 下 : 


行 代码 调用 了 can_attach 函 数 ， 该 函数 的 第 一 个 参数 是 该 资源 组 的 cgroup_subsys_state 实 例 ，, 第 


for each root subsys(root, ss) { 
struct cgroup_subsys state *css = cgroup css(cgrp, ss); 


1, 
2 
3 
4 if (ss->can_attach) { 

5. retval = ss->can_attach(css, &tset); 
6 if (retval) { 

7 failed_ss = ss; 

8 goto out_cancel_attach; 

9. } 

10. } 
11.} 


如 果 某 个 子 系统 对 应 的 can_attach 函 数 返回 非 零 值 ， 则 代表 进程 不 可 以 加 入 该 资源 组 。 第 5 


RA 


二 个 参数 是 前 面 收集 到 的 线程 ID 列表 。 


在 第 6 行 ~ 第 9% 行 代码 中 ， 如 果 发 现 某 个 子 系统 不 允许 指定 的 线程 加 入 ， 则 整体 操作 失败 ， 退 


出 cgroup_attach_task 函 数 。 


继续 回 到 主流 程 ， 代 码 后 续 会 初始 化 好 待 加 入 线程 的 css_set 数 据 结 构 ， 相 关 代码 如 下 : 


for (i = 0; i < group size; i++) { 
struct css set *old cset; 


1. 
2 
3 
4. tc = flex_array_get(group, i); 
5. old_cset = task_css_set(tc->task); 
6 tc->cset = find_css_set(old_cset, cgrp); 
7 if (!tc->cset) { 
8 retval = -ENOMEM; 

9 goto out_put_css_set_refs; 

10. } 

11.} 


该 段 代码 主要 用 于 遍历 前 面 收集 到 的 所 有 线程 ， 然 后 为 线程 分 配对 应 的 css_set 数 据 结构 。 


第 6 行 代码 中 ,find_css_set 消 数 会 判断 当前 进程 的 css_set 是 否 可 以 复 用 系统 已 经 存在 的 css_set 
数据 结构 。 例 如 ， 如 果 两 个 进程 所 加 入 的 CGroup 资 源 组 的 所 有 子 系统 的 cgroup_subsys_state 实 


例 是 完全 相同 的 ， 则 可 以 共享 css_set 数 据 结构 ， 否 则 会 分 配 新 的 css_set 实 例 。 


继续 回 到 cgroup_attach_task 函 数 ， 剩 下 部 分 的 主要 代码 逻辑 如 下 : 


1. for (i = 0; i < group_size; i++) { 

2 tc = flex_array_get(group, i); 

3. cgroup_task_migrate(tc->cgrp, tc->task, tc->cset); 
4 


- i 
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5. 

6. for each root subsys(root, ss) { 

7. struct cgroup_subsys state *css = cgroup css(cgrp, ss); 
8 

9 if (ss->attach) 

10. ss->attach(css, &tset); 

11. 


第 1 行 ~ 第 3 行 代码 会 遍历 所 有 之 前 收集 的 线程 ， 调 用 cgroup_task_migrate 进 行 相关 数据 结构 
的 调整 工作 ， 第 6 行 ~ 第 10 行 代码 遍历 当前 cgroupfs_root 下 所 有 cgroup_subsys 实 例 的 attach 回 调 
方法 进行 子 系统 特定 的 加 入 逻辑 。 


最 后 ， 我 们 看 下 cgroup_task_migrate 函 数 的 具体 逻辑 : 


1. static void cgroup_task_migrate(struct cgroup *old_cgrp, 
2 struct task struct *tsk, 
3. struct css set *new_cset) 
4. { 

5. struct css set *old_cset; 

6 

7 WARN_ON_ONCE(tsk->flags & PF_EXITING); 

8 old cset = task css set(tsk); 

9. 

10. task_lock(tsk); 

11. rcu_assign_pointer(tsk->cgroups, new_cset); 

12. task_unlock(tsk); 

13. 


14. write lock(&css set lock); 
15. if (!list_empty(&tsk->cg list)) 


16. list_move(&tsk->cg list, &new_cset->tasks); 
17. write_unlock(&css_set_lock); 

18. 

19. set_bit(CGRP_RELEASABLE, &old_cgrp->flags); 

20. put_css_set(old cset); 

21.} 


第 10 行 ~ 第 12 行 代码 将 线程 tsk 的 cgroups 成 员 指向 新 的 css_set 数 据 结构 实例 new_cset。 


第 14 行 ~ 第 17 行 代码 反 向 绑 定 新 css_set 实 例 new_cset 与 tsk 的 关联 ， 即 将 tsk 加 入 到 new_cset 
的 tasks 链 表 中 。 


第 19 行 ~ 第 21 行 代码 进行 老 的 css_set 实 例 的 释放 相关 工作 。 


A.3.4 ”Cgroup block 子 系统 IO 限 流 实现 


前 面 我 们 分 析 了 CGroup 框 架 相 关 的 实现 ， 还 有 很 多 细节 逻辑 ， 有 兴趣 的 读者 可 以 自行 翻阅 
源 代码 学 习 。 下 面 我 们 以 CGroup block 子 系统 下 的 限 流 模块 throttle 为 例 ， 介 绍 下 实现 一 个 CGroup 
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子 系统 需要 完成 哪些 事情 。 


整个 block 子 系统 提供 的 资源 探 人 
能 。 限 流 功能 的 代码 位 于 bloclyblkcthrottle.c 文 件 中 ， 带 宽 分 西 


出 包括 两 部 分 ， 一 部 分 是 


限 流 功能 ， 另 一 部 分 是 带宽 分 配 功 
0 功能 的 代码 位 于 block/cfq-iosched.c 


文件 中 。 另 外 ，block/blk-cgroup.c 及 block/blk-cgroup.h 文 件 中 包含 一 部 分 通用 人 逻辑 。 


block 限 流 子 系统 的 功能 在 本 章 开始 的 时 候 已 经 介绍 过 ， 这 里 我 们 可 以 为 不 同 的 设备 分 配 不 


同 的 bps ( 每 秒 读 写 流量 ) 或 者 iops ( 每 秒 读 写 次 数 )，CGroup 系 统 会 限 


判 相应 设备 的 流量 以 满足 


用 户 设置 的 要 求 。 要 理解 block 子 系统 的 限 流 功 能 ， 首 先 需 要 了 人 解 整个 block 子 系统 在 CGroup 方 面 
所 做 的 工作 。 整 个 block 子 系统 的 CGroup 实 现 的 核心 数据 结构 关系 如 图 A-16 所 示 。 


blkcg 


cgroup_subsys_state css 


spinlock t lock 


radix tree root blkg tree 


cfq 策略 


矩阵 树 


request_queue *q 


blkcg_gq *parent 


blkcg_gq blkcg_gq 


blkcg *blkcg 


throttle 策略 
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throtl grp 
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blk_policy_data pd 
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throtl_service_queue 
service_queue 


throtl_qnode 
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unsigned int io disp[] 
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vt 


bio | throtl_qnode 


throtl service_queue 
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| 
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unsigned int nr_queued[] 


RB 树 


rb root pending tree 


throtl_grp| |throtl grp 


图 A-16 ”block 子 系统 的 CGroup 核 心 数据 结构 


整体 block 子 系统 的 CGroup 核 心 数据 结构 的 关系 比较 复杂 ,很 难 在 一 张 图 中 完全 夯 清 楚 ， 图 
A-16 仅 仅 展示 了 其 中 的 一 部 分 。 下 面 我 们 详细 分 析 涉 及 的 所 有 核心 数据 结构 ， 其 中 一 部 分 是 图 
A-16 中 没有 展示 出 来 的 。 


首先 ， 我 们 知道 所 有 实现 CGroup 的 各 个 功能 的 子 系统 都 会 有 一 个 cgroup_subsys_state 的 


实例 ， 那 对 于 block 子 系统 来 说 ， 这 个 最 核心 的 数据 结构 是 plkcg。 下 面 我 们 给 出 该 数据 结构 的 


定义 : 
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struct blkcg { 


struct cgroup_subsys_ state CSS; 


spinlock_t lock; 
struct radix_tree_root blkg tree; 
struct blkcg gq *blkg_hint; 
struct hlist_head blkg list; 
uint64_t id; 

unsigned int cfq_weight; 

unsigned int cfq_leaf_weight; 


J; 


下 面 简要 介绍 该 数据 结构 中 各 个 成 员 的 含义 。 


口 该 数据 结构 的 首 个 成 员 css 是 cgroup_subsys_state 类 型 。 
口 lock 用 于 帮助 实现 临界 区 的 保护 。 
O blkg_tree 是 一 颗 基 树 ， 其 中 以 block 子 系统 的 核心 数据 结构 request_queue 的 id 为 键 ， 存 放 


的 是 blkcg_gq 这 个 数据 结构 的 实例 。 这 里 简单 解释 下 ， 因 为 block 子 系统 的 CGroup 大 多 是 
配置 在 某 个 块 设备 上 ， 在 同一 个 资源 组 内 我 们 通常 可 以 为 不 同 的 设备 分 配 不 同 的 策略 ， 

并 且 在 block 层 的 CGroup 策 略 并 不 只 有 一 种 , 主要 有 cfq 权 重 控制 及 throttle 限 流 控制 两 种 方 
式 ， 它 们 的 实现 也 完全 不 同 。 所 以 ， 这 里 的 plkg tree 存放 的 是 该 资源 组 下 涉及 的 所 有 设 


备 的 一 些 策略 配置 信息 ， 


析 这 个 数据 结构 。 


struct blkcg gq { 
struct request queue 


struct list head 
struct hlist_node 


struct blkcg 
struct blkcg gq 


struct request list 


这 个 策略 配置 信 


*q; 


q_node; 
blkcg_node; 


*blkcg; 
*parent; 


rl; 


息 的 数据 结构 就 是 blkcg_gq。 后 面 我 们 会 详细 分 


口 blkg_hint 是 一 个 用 于 快速 查找 的 缓存 。 每 次 从 plkg_tree 基 树 中 查找 成 功 时 ， 根 据 需要 可 
能 会 将 查找 结果 存放 到 此 成 员 上 ， 下 次 查找 直接 可 以 从 这 个 成 员 上 获取 。 

口 plkg_list 与 blkg_tree 的 功能 类 似 ， 区 别 在 于 后 者 将 blkcg_gq 以 基 树 的 形式 组 织 ， 后 者 将 
blkcg_gq 以 链表 的 形式 组 织 ， 方便 一 些 遍 历 操 作 。 

口 id 是 用 于 唯一 地 标识 该 blkcg 实 例 。 
口 cfq_weight 及 cfq_leaf_weight 这 两 个 成 员 与 cfq 相 关 ， 我 们 这 里 不 做 讨论 。 


下 面 我 们 再 来 看 一 下 blkcg_gq 这 个 数据 结构 : 
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int refcnt; 
bool online; 


struct blkg policy data *pd[BLKCG MAX POLS]; 


struct rcu_head rcu_head; 


}3 
下 面 简要 介绍 一 下 这 个 数据 结构 中 的 成 员 。 


O q 是 一 个 request_queue 类 型 的 指针 ， 指 向 相应 设备 的 请 求 队列 。 

口 q_node 用 于 实现 链表 。 

口 blkcg_node 是 一 个 单 链 表 域 。 前 面 讲 过 的 blkcg 数 据 结构 中 的 blkg_list 链 表 头 保存 了 该 资 

源 组 中 所 有 的 blkcg_gq 实 例 ，blkcg_node 域 用 于 实现 该 链表 。 

口 blkcg 用 于 指向 blkcg_gq 所 属 的 blkcg 实 例 。 

口 parent 指 向 父 blkcg_gq 实 例 。 

口 rl 成 员 用 于 分 配 rYequest 实 例 。 

O refcnt 是 该 数据 结构 的 引用 计数 器 。 

口 online 标 志 标 识 了 该 实例 是 否 已 经 是 在 线 状态 。 

口 pd 指针 数组 是 该 数据 结构 中 非常 重要 的 一 个 成 员 ， 它 的 作用 类 似 于 前 面 讲 过 的 CGroup 通 

用 框架 里 的 cgroup_subsys_state 类 型 ， 代 表 了 一 个 抽象 数据 结构 ， 用 于 帮助 内 核 代码 完 
成 一 个 多 态 的 数据 结构 。 对 于 通用 块 层 的 资源 控制 ， 通 常 的 策略 是 按照 每 资源 组 每 设备 
进行 的 ， 并 且 可 能 同时 存在 多 种 策略 ， 例 如 权重 策略 与 限 流 策略 是 完全 不 同 的 ， 所 以 这 
里 抽象 了 一 个 相当 于 面向 对 象 设计 思想 里 面 的 基 类 数组 ， 不 同 策略 定义 自己 的 核心 数据 
结构 ， 并 存 人 该 数组 中 。 

口 rcu_head 这 个 成 员 在 限 流 子 系统 中 基本 没有 用 到 ， 这 里 可 以 先 忽 略 。 


下 面 我 们 马上 看 下 blkg_policy_data 数 据 结构 的 定义 : 


struct blkg policy data { 


struct blkcg gq *blkg; 
int plid; 
struct list head alloc_node; 


j 
下 面 简要 介绍 该 数据 结构 中 各 成 员 的 定义 。 


口 blkg 指 向 blkcg_gq 数 据 结构 的 实例 。 

口 plid 的 含义 是 policy id， 即 策略 ID ， 每 个 策略 子 系统 都 有 自己 固定 的 ID。 该 成 员 初始 化 好 
后 ， 就 不 再 改变 。 

口 alloc_node 是 一 个 链表 域 ， 在 部 分 代码 中 用 于 链接 相关 的 blkg_policy_data 实 例 。 
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通用 块 层 的 CGroup 策 略 实现 主要 有 权重 和 限 流 这 两 个 策略 。 权重 策略 依赖 于 CFQ 调 度 器 , 限 
流 是 单独 的 一 个 模块 。 权 重 策略 的 blkg_policy_data 实 现 的 是 cfq_group 数 据 结 构 ， 限 流 策略 的 
blkg_policy_data 实 现 是 throtl grp 数 据 结 构 。 这 两 个 数据 结构 的 定义 中 首 个 成 员 都 是 
blkg_policy_data 实 例 ， 以 此 来 完成 多 态 设计 。 在 具体 了 解 策略 实现 之 前 ， 我 们 还 要 看 一 个 重要 


的 数据 结构 一 一 blkcg_policy， 该 数据 结构 用 于 不 同 策略 的 具体 实现 : 
struct blkcg policy { 
int plid; 
size_t pd_size; 
struct cftype *cftypes; 
blkcg_pol_init_pd_fn *pd_init_fn; 


blkcg_pol_online_pd_fn *pd_online_fn; 

blkcg_pol_offline_pd_fn *pd_offline_fn; 

blkcg_pol_exit_pd_fn *pd_exit_fn; 

blkcg_pol_reset_pd_stats_fn *pd_reset_stats_fn; 
3 


下 面 简 要 介绍 该 数据 结构 中 各 个 成 员 的 含义 。 


口 plid 与 blkcg_policy_data 中 plid 的 含义 相同 ， 代 表 一 个 固定 的 策略 编号 。 

O pd_size 代 表 该 策略 的 核心 数据 结构 的 大 小 。 因 为 我 们 通过 blkg_policy_data 来 表示 具体 
策略 的 基 类 ， 但 是 具体 策略 的 实现 不 同 ， 其 核心 数据 结构 的 大 小 也 会 不 相同 ， 所 以 在 这 
里 保存 了 核心 数据 结构 的 大 小 ， 用 于 分 配 具体 策略 子 系统 的 核心 数据 结构 。 

口 cftypes 是 cftype 类 型 的 ， 这 在 之 前 已 分 析 过 。 这 个 成 员 存 放 了 各 个 策略 子 系统 对 应 的 

CGroup 配 置 文件 。 

O pd_init_fn 用 于 初始 化 具体 策略 子 系统 。 

口 pd_online_fn 在 子 系统 投入 工作 时 会 被 调用 。 

口 pd_offline_fn 在 子 系统 被 卸载 时 使 用 。 

口 pd_exit_fn 在 子 系统 退出 时 调用 。 

O pd_reset_stats fn 在 子 系统 被 重 置 时 调用 ， 对 应 CGroup 的 reset stats 文 件 。 


下 面 我 们 开始 分 析 block 子 系统 限 流 模块 涉及 的 一 些 核心 数据 结构 ， 首 先 我 们 给 出 了 
throt1_grp 这 个 数据 结构 的 定义 : 


struct throtl_grp { 
struct blkg policy data pd; 


struct rb node rb_node; 
struct throtl_data *td; 


struct throtl_service_queue service_queue; 
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struct throtl_qnode qnode on self[2]; 
struct throtl_qnode qnode on parent[2]; 


unsigned long disptime; 
unsigned int flags; 

bool has_rules[2]; 
uint64 t bps[2]; 
unsigned int iops[2]; 
uint64 t bytes disp[2]; 
unsigned int io _disp[2]; 


unsigned long slice_start[2]; 
unsigned long slice_end[2]; 


struct tg stats cpu _ percpu *stats_cpu; 


struct list_head stats_alloc_node; 


J; 
下 面 简要 介绍 一 下 这 个 数据 结构 中 各 个 成 员 的 含义 。 


O pd 我 们 已 经 知道 ， 它 帮助 我 们 完成 不 同 策略 的 多 态 实现 。 

口 fb_node 是 一 个 红 黑 树 的 链接 域 ， 用 于 将 throt1_grp 链 接 到 后 面 要 分 析 的 throtl_service_ 
queue 的 pending_tree 中 ， 以 具体 bio (WRS ) 的 到 期 时 间作 为 键 ， 即 按 throt1_grp 里 存 
放 的 bio 请 求 的 到 期 时 间 来 排序 。 

O td 存放 限 流 子 模块 中 一 些 特定 的 数据 结构 ， 后 面 会 详细 分 析 。 

O service_queue 成 员 存 放 了 该 资源 组 中 所 有 被 限 流 的 bio 请 求 , 同时 包含 了 一 颗 红 黑 树 用 于 

帮助 完成 bio 请 求 的 排序 工作 。 后 面 我 们 会 详细 分 析 这 个 数据 结构 。 

口 qnode_on_self 及 qnode_on_parent 是 throtl_qnode 类 型 的 数组 ， 它 们 都 有 两 项 ， 分 别 代 表 
读 和 写 , 数组 主要 存放 被 限 流 的 bio 请 求 。 由 于 CGroup 框 架 本 身 是 支持 多 层级 树 形 结构 的 ， 
这 种 情况 下 位 于 最 下 层 的 叶子 节点 的 资源 组 的 bio 请 求 被 放行 ， 需要 继续 派发 到 上 一 层 的 
资源 组 中 , 看 是 否 超出 父 资源 组 的 IO 限 流 要 求 , 我 们 需要 区 分 来 源 于 自己 资源 组 本 身 的 IO 
请 求 与 来 源 于 下 一 层 派发 上 来 的 IO 请 求 ， 避 人 免 由 于 来 自 下 一 层 派发 的 请 求 过 多 导致 本 资 
源 组 自身 的 IO 请 求 得 不 到 满足 ， 以 致 出 现 严重 的 不 公平 现象 ， 所 以 通过 引入 两 个 单独 的 
成 员 ，qnode_on_self 存 放 自 身 资源 组 中 的 10 请 求 ，qnode_on_parent 存 放 子 资源 组 派发 上 
来 的 IO 请 求 ， 这 样 就 可 以 有 效 避 人 免 不 公 平 现象 的 发 生 。 

口 disptime 代 表 的 是 该 资源 组 下 次 可 以 派发 IO 的 时 间 ， 单 位 是 jiffies。 
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口 flags 记 录 该 资源 组 的 一 些 状 态 标志 , 可 能 的 值 是 THROTL_TG_PENDING 和 THROTL_TG_WAS_EMPTY， 
它们 分 别 代表 该 资源 组 处 于 待 处 理 状 态 或 者 是 该 资源 组 没有 被 限 流 等 待 派 发 的 IO 请 求 。 

O has_rules 数 组 代表 的 是 该 资源 组 分 别 在 读 和 写 上 有 没有 限 流 规则 存在 ， 用 于 在 提交 IO 请 
求 后 ， 判 断 是 否 要 对 该 IO 进行 限 流 等 。 

口 bps 数 组 代表 的 是 该 资源 组 在 读 和 写 上 每 秒 钟 允 许 的 字 节 数 ，iops 数 组 代表 的 是 读 和 写 上 
每 秒 钟 允许 的 执行 数量 。 

O bytes_disp 数 组 代表 的 是 当前 资源 组 在 这 一 秒 内 已 经 流 过 的 IO 字 节 数 ，io_disp 数 组 代表 
的 是 当前 资源 组 在 这 一 秒 内 已 经 通过 的 读 写 次 数 。 

O slice_start 和 slice_end 数 组 用 于 内 部 时 间 相 关 的 计算 工作 。 

口 stats_cpu 用 于 存放 每 个 CPU 各 自 的 一 些 统计 数据 ， 例 如 总 共 传 输 了 多 少 字 节 的 数据 ， 发 
生 了 多 少 次 读 写 请 求 等 。 

O stats _alloc_node 用 于 分 配 stats_cpu 数 据 结构 。 


下 面 我 们 再 详细 看 看 throt1_grp 数 据 结构 中 涉及 的 一 些 其 他 数据 结构 的 定义 ， 首 先 来 了 解 一 
“Fthrotl service _queue 这 个 数据 结构 : 


struct throtl service queue { 
struct throtl_service_queue *parent_sq; 
struct list head queued[2]; 
unsigned int nr_queued[2]; 


struct rb_root pending tree; 

struct rb_node *first_pending; 
unsigned int nr_pending; 

unsigned long first_pending disptime; 
struct timer_list pending timer; 


E 
下 面 我 们 简要 介绍 该 数据 结构 中 各 个 成 员 的 含义 。 


口 parent_sq 指 向 父 throtl_service_queue 数 据 结 构 的 实例 。 

O queued 链 表 数 组 用 于 存放 在 读 和 写 上 的 bio 请 求 ， 链 表 的 内 容 是 throt1_qnode 数 据 结构 的 
实例 。 

口 nr_queued 数 组 用 于 统计 在 queued 链 表 数 组 中 读 和 写 的 项 数 。 

口 pending_tree 是 一 颗 红 黑 树 的 根 节 点 ， 将 throt1_grp 数 据 结构 实例 组 织 成 一 颗 红 黑 树 ， 以 
throtl] grp 的 disptime 进 行 排序 。 

Q first_pending 与 first_pending_disptime 分 别 存放 了 红 黑 树 中 首 个 等 待 派发 的 throtl]_grp 
及 其 具体 的 派发 时 间 disptime， 主 要 用 于 快速 查找 。 

口 nr_pending 存 放 的 是 等 待 派发 的 资源 组 throt1_grp 的 个 数 。 

O pending time 成员 是 一 个 定时 器 ， 用 于 在 指定 时 间 触 发 相关 函数 执行 。 实 际 上 ， 这 里 是 
throtl_pending timer fn 函数 。 
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下 面 再 看 一 下 throtl qnode 数 据 结构 : 


struct throtl_qnode { 
struct list_head node; 
struct bio list bios; 
struct throtl_grp *tg; 
B 


下 面 简 要 介绍 该 数据 结构 中 各 个 成 员 的 含义 。 


口 bios 是 相关 bio 请 求 的 实例 。 
O tg 指 向 所 属 的 资源 组 throt1_grp 的 实例 。 


辑 ， 首 先 以 限 流 子 模块 的 初始 化 过 程 开 始 分 析 。 


限 流 子 模 块 涉及 的 核心 数据 结构 基本 就 是 这 些 ， 下 面 我 们 开始 分 析 该 子 模块 的 功能 实 


O node 是 一 个 链表 的 链接 域 , 用 于 将 throtl_qnode 实 例 链接 在 service_queue 的 queue 数 组 中 。 


He 


限 流 子 模块 的 初始 化 涉及 内 核 代 码 流程 的 两 个 部 分 。 第 一 部 分 为 模块 初始 化 阶段 ， 它 通过 


throt1_init 函 数 进行 限 流 子 模块 的 一 些 数据 结构 分 配 及 策略 注册 等 工作 。 第 二 部 分 为 块 设备 驱 
动 注册 的 过 程 中 ， 当 为 块 设备 分 配 相 应 的 请 求 队列 request_queue 时 ,会 调用 限 流 子 模块 针对 设 


备 请 求 队列 单独 的 初始 化 方法 blk_throtl_init。 第 一 部 分 只 在 模块 初始 化 阶段 调 月 


分 在 每 个 块 设备 分 配 请 求 队 列 时 都 会 被 调用 。 下 面 我 们 首先 分 析 throtl_init 函 数 的 逻辑 : 


1. static int init throtl_init(void) 

2. { 

3 kthrotld_workqueue = alloc workqueue("kthrotld", WO MEM RECLAIM, 0); 
4. if (!kthrotld_workqueue) 

5 panic("Failed to create kthrotld\n"); 

6 

7 

8. 


return blkcg_policy_register(&blkcg_ policy throt1l); 
} 


工作 ， 后 面 会 详细 分 析 。 


第 二 部 


第 3 行 代码 分 配 一 个 名 字 为 kthrot1d 的 工作 队列 ,该 工作 队列 用 于 限 流 子 模块 异步 派发 bio 等 


第 7 行 代 码 用 于 注册 限 流 子 模块 策略 。 在 熟悉 blkcg_policy register 的 注册 逻辑 前 ， 我 们 先 


来 看 下 blkcg_policy throt1 的 定义 : 
// blk-throttle.c 


static struct blkcg policy blkcg policy throtl = { 


.pd_size = sizeof(struct throtl_grp), 
.cftypes = throtl_files, 
.pd_init fn = throtl_pd_init, 


.pd_online fn = throtl] pd_online, 
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-pd_exit_fn = throtl_pd_exit, 
-pd_reset_stats fn = throtl_pd reset stats, 
3 


下 面 简 要 介绍 该 数据 结构 中 各 个 成 员 的 含义 。 

口 blkcg_policy 数 据 结构 前 面 我 们 分 析 过 , 通过 代码 可 以 看 到 限 流 子 模块 核心 数据 结构 的 大 

小 pd_size 就 是 throtl_grp 的 大 小 。 

口 cftypes 域 存放 了 限 流 子 模块 独立 的 配置 文件 ， 这 里 不 再 列 出 。 

口 throtl pd init、 throtl pd pnline、 throtl pd exit、throtl pd _reset_stats 等 相关 回调 
函数 在 限 流 子 模块 的 不 同时 机 会 被 调用 ， 后 面 我 们 会 详细 分 析 。 


下 面 我 们 再 看 下 blkcg_policy register 函 数 的 逻辑 ， 


// blk-cgroup.c 


1. int blkcg policy register(struct blkcg policy *pol) 

Bot 

3. int i, ret; 

4. 

5. if (WARN_ON(pol->pd_size < sizeof(struct blkg_policy_data))) 
6 return -EINVAL; 

7 

8 mutex_lock(&blkcg_pol_mutex); 

9 


10. ret = -ENOSPC; 
11. for (i = 0; i < BLKCG MAX_POLS; i++) 


12%, if (!blkcg_policy[i]) 
13. break; 

14. if (i >= BLKCG_MAX_ POLS) 
15. goto out_unlock; 

16. 


17. pol->plid = i; 
18. blkcg _policy[i] = pol; 


19. 

20. if (pol->cftypes) 

21. WARN_ON(cgroup_add_cftypes(&blkio_subsys, pol->cftypes)); 
22. ret = 0; 


23.out_unlock: 

24. mutex_unlock(&blkcg_pol_mutex) ; 
25. return ret; 

26.} 


第 5 ~ 6 行 代码 判断 待 注册 的 策略 的 核心 数据 结构 的 大 小 是 否 正常 。 前 面 讲 过 ， 通 用 块 层 
CGroup 的 不 同 策略 子 系统 通过 将 其 核心 数据 结构 的 首 个 成 员 统一 为 plkg_policy_data 类 型 来 实 
现 多 态 ， 所 以 这 里 基本 的 判断 就 是 这 个 数据 结构 至 少 不 能 小 于 blkg_policy_data 的 大 小 。 
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第 11 ~ 18 行 代码 从 系统 全 局 数组 blkcg_policy 中 查找 一 个 空闲 的 覃 位 来 存放 待 注册 策略 的 数 
据 结 构 实 例 。 如 果 没 有 空闲 槽 位， 则 跳 到 out_unlock 处 ， 返 回 ENOSPC 错 误 。 如 果 找 到 空闲 槽 位 ， 
则 将 策略 数据 结构 实例 放 入 相应 槽 位 中 。 
第 20 ~ 21 行 代码 通过 cgroup_add_cftypes 函 数 将 限 流 策略 独立 的 配置 文件 信息 加 入 到 系统 中 。 
第 一 部 分 的 初始 化 主要 完成 策略 注册 的 相关 工作 。 下 面 我 们 来 看 每 个 设备 加 入 系统 后 , 限 流 
子 模 块 针 对 每 个 设备 的 初始 化 逻辑 , 这 部 分 逻辑 代码 在 plk_throt1l in 让 函数 中 。 我 们 知道 , 每 个 块 
设备 在 注册 自己 的 驱动 程序 时 ， 都 需要 创建 和 初始 化 块 设备 相关 的 核心 数据 结构 request_queue， 
那么 限 流 子 模块 针对 每 个 设备 的 初始 化 工作 就 是 在 设备 驱动 分 配 自己 的 request_queue 时 进行 
的 。 整 体 的 调用 关系 如 图 A-17 所 示 。 


blk_alloc_queue_node 
blkcg init queue 


blkcg activate policy 
__blkg_ lookup 


pol->pd_init_fn 


图 A-17 blk_alloc_queue_nodei AXA 
blk_alloc_queue_node PACH FIR SKA A A CR, PTA} blkcg_init_queue 


FEF fil A BPRS eR, AE fay PAA] b1k_throtl_inites#. 7Eb1k_throt]l_init PARC A THK 
WIT RR SKM, RFT AMAT, MAblk_throtl_init KZI LRAT : 


. int blk_throtl_init(struct request_queue *q) 
-{ 

struct throtl_ data *td; 

int ret; 


1 
2 
3 
4 
5. 
6. td = kzalloc_node(sizeof(*td), GFP_KERNEL, q->node); 
7 if (!td) 

8 return -ENOMEM; 

9. 

10. INIT_WORK(&td->dispatch_work, blk_throtl_dispatch_work_fn) ; 
11. throtl_service_queue_init(&td->service_queue, NULL); 
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12. 

13. q->td = td; 

14. td->queue = q; 

15. 

16. ret = blkcg activate_policy(q, &blkcg policy throt1); 
17. if (ret) 


18. kfree(td); 
19. return ret; 
20.} 


第 3~8 行 代码 用 于 分 配 throt1_data 数 据 结构 实例 , 第 10 行 代码 用 于 初始 化 限 流 IO 派发 函数 为 
blk throt1 dispatch work fn。 


第 11 行 代码 用 于 初始 化 限 流 子 模块 的 service_queue, 其 中 除了 初始 化 各 个 成 员外 , 还 要 初始 
化 一 个 定时 需 ， 用 于 指定 IO 限 流 时 间 到 后 的 定时 触发 工作 。 


第 16 行 代码 通过 blkcg_activate_ policy 进行 策略 的 激活 操作 。 


在 函数 blkcg_activate_policy 中 ， 进 行 各 层 plkcg_gq 数 据 结构 的 分 配 和 建立 工作 ， 主 要 通过 
调用 _blkg lookup 与 blkg_create 国 数 来 完成 。 


下 面 我 们 简要 介绍 一 下 限 流 功能 执行 的 主要 代码 路 径 。 

一 个 具体 的 IO 请 求 从 VFS 层 提交 给 通用 块 层 的 接口 函数 是 submit_bio。 在 进行 了 简单 的 判断 
和 统计 工作 后 , 会 调用 generic make request 函数 ,这 个 函数 内 部 开始 根据 请 求 bio 对 应 的 设备 来 
调用 相应 独立 的 make_request_fn 消 数 , 在 此 之 前 有 一 些 简单 的 判断 工作 , 限 流 子 模块 的 功能 就 是 
在 这 里 实现 的 。 具 体 对 应 的 函数 是 generic _ make request_checks ( 其 调用 流程 如 图 A-18 所 示 )。 


tg_may_dispatch 


图 A-18 generic make request_checks 调 用 流程 
限 流 功 能 的 大 体 逻 辑 如 下 所 示 。 


(1) 通过 tg_may_dispatch 也 数 判 断 当 前 时 间 范 围 内 统计 的 bps 和 iops 是 否 超 过 限额 如 果 没 有 
则 调用 throt1_charge_bio 工 作 处 理 一 些 时 间 片 以 及 统计 当前 流 过 的 bps 和 iops。 
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(2) 如 果 tg_may_dispatch 函 数 判 断 出 已 经 超过 单位 时 间 内 的 限额 , 则 将 当前 bio 请 求 加 到 相应 


的 待 处 理 队列 中 ， 等 待 指定 时 间 到 达 后 触发 定时 吉 事 件 ， 将 被 限 流 的 bio 派 发 出 去 ， 定 期 时 间 到 
达 后 ， 具 体 触发 的 函数 是 throtl_pending_timer_fn。 每 次 进入 generil make_request_checks 消 数 
或 者 当 等 待 派发 的 队列 为 空 时 ， 会 通过 throt1 schedule_next_dispatch 函 数 来 启动 或 更 新 定时 器 


H 


事件 的 触发 时 间 。 


由 于 篇 幅 所 限 , 这 里 省 略 了 很 多 具体 限 流 逻 辑 的 一 些 细节 处 理 , 感 兴趣 的 读者 可 以 自行 翻阅 


相关 代码 。 


欢迎 加 入 


图 灵 社 区 ITuring.cn 


最 前 沿 的 上 T 类 电子 书 发 售 平台 


电子 出 版 的 时 代 已 经 来 临 。 在 许多 出 版 界 同 行 还 在 犹豫 稍 律 的 时 候 ， 图 灵 社 区 已 经 采取 实际 行 
动 拥抱 这 个 出 版 业 巨 变 。 作 为 国内 第 一 家 发 售 电子 图 书 的 IT 类 出 版 商 ， 图 灵 社 区 目前 为 读者 提供 两 种 
DRM-free 的 阅读 体验 : 在 线 阅 读 和 PDF。 

相 比 纸 质 书 ， 电 子 书 具有 许多 明显 的 优势 。 它 不 仅 发 布 快 ， 更 新 容易 ， 而 且 尽 可 能 采用 了 彩色 图 
片 《 即 使 有 的 书 纸 质 版 是 黑白 印刷 的 ) 。 读 者 还 可 以 方便 地 进行 搜索 、 剪 贴 、 复 制 和 打印 。 

图 灵 社 区 进一步 把 传统 出 版 流程 与 电子 书 出 版 业务 紧密 结合 ， 目 前 已 实现 作 译 者 网 上 交 稿 、 编 辑 
网 上 审 稿 、 按 章 发 布 的 电子 出 版 模式 。 这 种 新 的 出 版 模式 ， 我 们 称 之 为 “敏捷 出 版 ”， 它 可 以 让 读者 
以 较 快 的 速度 了 解 到 国外 最 新 技术 图 书 的 内 容 ， 弥 补 以 往 翻译 版 技术 书 “ 出 版 即 过 时 ”的 缺 钴 。 同 
时 ， 敏 捷 出 版 使 得 作 、 译 、 编 、 读 的 交流 更 为 方便 ， 可 以 提前 消灭 书稿 中 的 错误 ， 最 大 程度 地 保证 图 
书 出 版 的 质量 。 


优惠 提示 : 现在 购买 电子 书 ， 读 者 将 获 赠 书 款 20% 的 社区 银子 ， 可 用 于 兑换 纸 质 样 书 。 


最 方便 的 开放 出 版 平台 


图 灵 社 区 向 读者 开放 在 线 写 作 功 能 ， 协 助 你 实现 自 出 版 和 开源 出 版 的 梦想 。 利 用 “合集 ”功能 ， 
你 就 能 联合 二 三 好 友 共 同 创作 一 部 技术 参考 书 ， 以 免费 或 收费 的 形式 提供 给 读者 。( 收费 形式 须 经 过 
图 灵 社 区 立项 评审 。 ) 这 极 大 地 降低 了 出 版 的 门槛 。 只 要 你 有 写作 的 意愿 ， 图 灵 社 区 就 能 带 助 你 实现 
这 个 梦想 。 成 熟 的 书稿 ， 有 机 会 入 选 出 版 计划 ， 同 时 出 版 纸 质 书 。 

图 灵 社 区 引进 出 版 的 外 文 图 书 ， 都 将 在 立项 后 马上 在 社区 公布 。 如 果 你 有 意 翻 译 哪 本 图 书 ， 欢 迎 
你 来 社区 申请 。 只 要 你 通过 试 译 的 考验 ， 即 可 签约 成 为 图 灵 的 译 者 。 当 然 ， 要 想 成 功 地 完成 一 本 书 的 
翻译 工作 ， 是 需要 有 坚强 的 新力 的 。 


一 一 最 直接 的 读者 交流 平台 


在 图 灵 社 区 ， 你 可 以 十 分 方便 地 写作 文章 、 提 交 勘 误 、 发 表 评 论 ， 以 各 种 方式 与 作 译 者 、 编 辑 人 
员 和 其 他 读者 进行 交流 互动 。 提 交 勘 误 还 能 够 获 赠 社区 银子 。 
你 可 以 积极 参与 社区 经 常 开 展 的 访谈 、 乐 译 、 评 选 等 多 种 活动 ， 遍 取 积 分 和 银子 ， 积 累 个 人 声望 。 
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MariaDB 
原理 与 实现 


本 书 对 于 MariaDB 的 各 种 特性 如 数 家 珍 ， 从 基本 原理 到 源 代码 ， 使 读者 洞悉 一 切 。 但 这 又 不 是 一 本 
只 讲 MariaDB 的 书 ， 还 详细 介绍 了 MariaDB 与 MySQL 的 差异 ， 而 且 作 者 还 无 私 分 享 了 很 多 京东 数据 库 的 
实践 经 验 。 总 之 一 句 话 ， 这 是 一 本 关于 MariaDB 与 众 不 同 的 好 书 ! 

一 一 汪 源 ， 网 易 杭 州 研究 院 副 院 长 


之 前 国内 在 数据 库 系统 方面 的 技术 积累 有 限 ， 现 在 我 看 到 国内 越 来 越 多 数据 库 方面 图 书 的 出 版 ， 感 
BARNES 

作为 MySQL 的 一 个 重要 源 代码 分 支 ，MariaDB 包 括 的 一 些 新 特性 使 它 在 某 些 地 方 优 于 MySQL， 同 时 
基于 对 MySQL 后 续 发 展 的 担心 ， 包 括 谷 歌 在 内 的 一 些 大 公司 开始 逐步 使 用 MariaDB 蔡 换 MySQL。 

本 书 从 设计 原理 开始 讲解 ， 深 入 浅 出 地 剖析 了 MariaDB 以 及 MySQL 的 几 部 分 重要 功能 的 具体 实现 细 
节 ， 是 作者 在 京东 工作 实践 中 的 提炼 和 总 结 。 通 过 本 书 ， 你 不 但 可 以 学 习 到 数据 库 方面 的 基础 理论 ， 而 
且 也 可 以 参照 书 中 的 实例 进行 MariaDB 源 代码 方面 的 实践 。 相 信 本 书 对 使 用 和 学 习 MariaDB 的 读者 有 很 
大 的 帮助 。 

一 一 杨 海 朝 ，MySQL ACE Directom 新 浪 首席 数据 库 架 构 师 


MariaDB 不 仅 免费 开源 ， 而 且 支 持 一 些 新 特性 ， 如 多 源 复制 、 线 程 池 、binlog group commit 等 。 另 外 ， 
Google 已 经 从 MySQL 迁 移 到 了 MariaDB。 
本 书 由 浅 入 深 地 讲述 了 MariaDB 的 基本 原理 和 实现 细节 ， 并 结合 在 京东 的 实战 经 验 ， 给 出 基于 
MariaDB 的 分 布 式 数据 库 的 最 佳 实现 。 
相信 本 书 对 学 习 MariaDB 的 读者 会 非常 有 帮助 。 
一 一 吴 元 清 ， 京 东 架 构 师 
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